Cuándo Usar
La evaluación de impacto es el enfoque adecuado cuando necesita saber si un programa causó cambios observados en los resultados —no solo si los resultados mejoraron, sino si la mejora se debió al programa. Este es un estándar alto que requiere una inversión sustancial en diseño y recolección de datos. Úsela cuando:
- Decisiones de escala dependen de evidencia — gobiernos o donantes que consideran un despliegue a gran escala necesitan evidencia creíble de que el programa funciona antes de comprometer recursos
- La eficacia del programa es genuinamente incierta — la intervención tiene una teoría del cambio plausible pero no ha sido probada rigurosamente en este contexto
- Existe competencia de políticas — comparar dos enfoques alternativos requiere un diseño comparativo para determinar cuál es más efectivo
- Los requisitos de los donantes lo mandan — USAID, USDA y el World Bank requieren cada vez más evaluaciones de impacto para programas por encima de ciertos umbrales, particularmente para seguridad alimentaria, salud y agricultura
- Las apuestas son altas — los programas que afectan a grandes números de personas o involucran recursos significativos justifican la inversión en evaluación rigurosa
La evaluación de impacto no es apropiada cuando el programa aún se está desarrollando (use evaluación formativa primero), cuando los resultados no pueden medirse en el cronograma del programa, cuando un contrafactual no puede construirse ética o prácticamente, o cuando la pregunta de evaluación es sobre cómo ocurrieron los resultados en lugar de si ocurrieron (use análisis de contribución o rastreo de procesos en su lugar).
| Escenario | ¿Usar Evaluación de Impacto? | Mejor Alternativa |
|---|---|---|
| Decisión de escala para modelo probado | Sí | — |
| Desarrollo de programa en etapa temprana | No | Evaluación formativa |
| Cambio complejo multi-actor | No | Análisis de Contribución |
| Cómo y por qué ocurrió el cambio | No | Rastreo de Procesos |
| No es posible contrafactual | No | Análisis de Contribución |
| Mandatos de donantes exigen evidencia de atribución | Sí | — |
Cómo Funciona
Todas las evaluaciones de impacto se basan en una idea central: el contrafactual — lo que habría ocurrido a los participantes del programa en ausencia del programa. Como no puede observar a las mismas personas tanto con como sin el programa, construye un grupo de comparación que aproxime este contrafactual.
Paso 1: Planifique en la etapa de diseño
Las evaluaciones de impacto deben planificarse antes de que comience el programa. La evaluación de impacto retrospectiva rara vez es creíble. Los datos de línea de base deben recolectarse antes de que comience el programa.
Paso 2: Defina la pregunta de evaluación
Indique con precisión qué resultado está tratando de medir, para quién, durante qué período de tiempo y a qué nivel geográfico. Las preguntas vagas producen evaluaciones inconclusas.
Paso 3: Elija un diseño
La elección del diseño depende de si la asignación aleatoria es factible:
- Ensayo Controlado Aleatorizado (RCT) — los participantes se asignan aleatoriamente al tratamiento o control. Estándar de oro para validez interna pero costoso y a menudo éticamente difícil
- Diseños cuasi-experimentales — cuando la randomización no es posible: diferencia-en-diferencias, emparejamiento de puntaje de propensión, discontinuidad de regresión, o series de tiempo interrumpidas. Vea diseño cuasi-experimental para detalles
Paso 4: Establezca línea de base
Recolecte datos sobre resultados para ambos grupos, tratamiento y comparación, antes de que comience el programa. Esto es no negociable. Los dos grupos deben ser comparables en la línea de base — cualquier diferencia debe documentarse y controlarse en el análisis.
Paso 5: Implemente con integridad de evaluación
Monitoree la contaminación (grupo de acceso al programa), la deserción (perder participantes del estudio) y la fidelidad del diseño (programa entregado como se pretendía). Estas amenazas a la validez deben gestionarse durante toda la implementación.
Paso 6: Recolecte datos de seguimiento y analice
Recolecte datos de línea media y línea final en intervalos preespecificados. Analice usando los métodos estadísticos apropiados para el diseño elegido. Informe el tamaño del efecto del tratamiento con intervalos de confianza, no solo pruebas de significancia.
Paso 7: Interprete y comunique hallazgos
Un efecto estadísticamente significativo no es lo mismo que uno prácticamente significativo. Informe tamaños de efecto en términos que los tomadores de decisiones entiendan (cambios absolutos, cambios porcentuales, vidas afectadas) junto con la significancia estadística.
Componentes Clave
- Contrafactual — un grupo de comparación creíble que aproxima lo que habría ocurrido sin el programa
- Datos de línea de base — mediciones de resultados previos a la intervención para ambos grupos
- Indicador de resultado principal — uno o dos resultados clave que la evaluación puede detectar
- Cálculo del tamaño de muestra — determina cuántos participantes se necesitan para detectar un efecto de magnitud esperada
- Pre-registro — registrar el diseño de evaluación, hipótesis y plan de análisis antes de la recolección de datos (cada vez más requerido por 3ie, J-PAL y donantes principales)
- Datos de seguimiento — mediciones de línea media y línea final en intervalos preespecificados
- Plan de análisis — métodos estadísticos preespecificados para evitar la excavación de datos
Mejores Prácticas
Compromiso con el contrafactual. Toda la credibilidad de una evaluación de impacto depende de la calidad del grupo de comparación. La asignación aleatoria es el estándar de oro; cuando no es factible, documente cuidadosamente por qué y use el mejor diseño cuasi-experimental disponible.
Mandate recolección de datos de línea de base. Sin línea de base no hay evaluación de impacto — solo una comparación antes-después, que no puede descartar tendencias que habrían ocurrido de todos modos.
Potencie el estudio para detectar efectos realistas. Los estudios subpotenciados producen resultados inconclusos independientemente de qué tan bien se haga todo lo demás. Trabaje con un estadístico para calcular tamaños de muestra mínimos basados en tamaños de efecto esperados.
Use los mismos instrumentos entre grupos. Las herramientas y preguntas de encuesta deben ser idénticas entre los grupos de tratamiento y comparación para asegurar comparabilidad.
Pre-registre el diseño. El pre-registro evita el reporte selectivo de hallazgos positivos y construye credibilidad con donantes y políticos. 3ie, AEA RCT Registry y RIDIE son los principales registros.
Errores Comunes
Empezar demasiado tarde. Las evaluaciones de impacto diseñadas después de que comienza la implementación no pueden establecer líneas de base válidas. El error más común y más costoso en evaluación de impacto es el fallo de planificar prospectivamente.
Pedirle a la evaluación de impacto que responda preguntas de proceso. Una evaluación de impacto le dice si los resultados cambiaron. No le dirá por qué, para quién varió el efecto, o qué mecanismos lo produjeron. Emparejela con métodos cualitativos para ideas de proceso.
Atención inadecuada a la calidad del grupo de comparación. El emparejamiento de puntaje de propensión, diferencia-en-diferencias y discontinuidad de regresión dependen de supuestos que deben probarse e informarse. Presentar resultados cuasi-experimentales sin discutir la plausibilidad de los supuestos del diseño es engañoso.
Conflar significancia estadística con éxito del programa. Un efecto estadísticamente significativo de magnitud insignificante no es un éxito del programa. Informe e interprete tamaños de efecto.
Negligencia de resultados negativos. Los resultados nulos son información. Una evaluación de impacto bien conducida que no encuentra efecto es evidencia valiosa. Suprima resultados nulos y distorsionará la base de evidencia.
Ejemplos
Medios de vida agrícolas, África Oriental. Un programa de seguridad alimentaria financiado por USDA en Etiopía usó un diseño cuasi-experimental con emparejamiento de puntaje de propensión para evaluar el impacto en la diversidad dietética del hogar y los ingresos. Los datos de línea de base se recolectaron para 3,000 hogares de tratamiento y 2,400 hogares de comparación emparejados antes del inicio del programa. Las encuestas de línea media y línea final rastrearon resultados durante cinco años. La evaluación encontró una mejora de 0.8 desviaciones estándar en las puntuaciones de diversidad dietética en los hogares de tratamiento en relación con la comparación, atribuida al programa. El efecto se concentró en hogares encabezados por mujeres, lo que provocó una revisión del diseño para el programa de seguimiento.
Salud, África Occidental. Un programa de prevención de malaria financiado por USAID en Nigeria usó un diseño de ensayo aleatorizado por conglomerados, randomizando 60 comunidades al tratamiento (distribución gratuita de mosquiteros más visitas de trabajadores de salud comunitarios) o control (mosquiteros gratuitos solo). La evaluación encontró que agregar visitas de trabajadores de salud comunitarios produjo un aumento de 23 puntos porcentuales en el uso consistente de mosquiteros en relación con los mosquiteros solos, justificando el costo adicional del componente de trabajador de salud comunitario en la planificación de escala nacional.
Educación, Asia Meridional. Un programa de mejora del aprendizaje apoyado por el World Bank en Pakistán usó un diseño de discontinuidad de regresión basado en clasificaciones de puntuaciones de prueba a nivel de escuela para evaluar el impacto en el logro estudiantil. Las escuelas justo debajo del umbral de elegibilidad se compararon con las escuelas justo encima. La evaluación encontró una mejora de 0.4 desviaciones estándar en las puntuaciones de alfabetización entre estudiantes de Grado 3 en escuelas del programa, con efectos más grandes para niñas y escuelas rurales.
Comparado Con
| Enfoque | Reclamación Causal | Contrafactual | Adecuado Cuando |
|---|---|---|---|
| Evaluación de Impacto | Efecto atribuible | Explícito | Contrafactual factible, decisión de escala |
| Diseño Cuasi-Experimental | Efecto atribuible | Construido | Randomización no factible |
| Análisis de Contribución | Contribución plausible | Ninguno | Cambio complejo, multi-actor |
| Rastreo de Procesos | Mecanismo causal | Ninguno | Entender cómo ocurrió el cambio |
| Evaluación Realista | Mecanismos contextuales | Parcial | Qué funciona, para quién |
Indicadores Relevantes
52 indicadores alineados con donantes a través de USAID, DFID, World Bank, 3ie, USDA y Global Fund. Ejemplos clave:
- Cambio neto atribuible en resultado principal entre línea de base y línea final (tratamiento vs. comparación)
- Tamaño del efecto (Cohen's d o diferencia de puntos porcentuales) al finalizar el programa
- Proporción de hipótesis de evaluación confirmadas versus desconfirmadas
- Puntuación de fidelidad para la implementación del programa como se diseñó
Herramientas Relacionadas
- Planificador de Evaluación — estructure su diseño de evaluación y cronograma desde el inicio del programa
- Biblioteca de Indicadores — encuentre indicadores de resultado alineados con donantes para su sector
Temas Relacionados
- Diseño Cuasi-Experimental — la alternativa más común cuando los RCT no son factibles
- Análisis de Contribución — para cuando no se puede construir un contrafactual
- Diseño de Línea de Base — la recolección de datos fundamental sin la cual no es posible ninguna evaluación de impacto
- Atribución vs. Contribución — entendiendo la distinción entre evaluación de impacto y reclamaciones de contribución
- Evaluación de Métodos Mixtos — emparejando estimaciones de impacto cuantitativas con ideas de proceso cualitativas
Lectura Adicional
- Gertler, P., Martinez, S., Premand, P., Rawlings, L., & Vermeersch, C. (2016). Evaluación de Impacto en la Práctica. 2da ed. World Bank. La guía de práctica más accesible.
- White, H. (2014). Desafíos Actuales en la Evaluación de Impacto. Documento de Trabajo 3ie 18. Revisa debates metodológicos.
- J-PAL (2019). Introducción a las Evaluaciones. Poverty Action Lab. Curso en línea gratuito que cubre diseño RCT.
- USAID (2016). Evaluación: Aprendizaje de la Experiencia. ADS 203. Política de USAID sobre evaluación incluyendo requisitos de evaluación de impacto.