Evaluación de Impacto - Biblioteca de M&E

Cuándo Usar

La evaluación de impacto es el enfoque adecuado cuando necesita saber si un programa causó cambios observados en los resultados —no solo si los resultados mejoraron, sino si la mejora se debió al programa. Este es un estándar alto que requiere una inversión sustancial en diseño y recolección de datos. Úsela cuando:

Decisiones de escala dependen de evidencia — gobiernos o donantes que consideran un despliegue a gran escala necesitan evidencia creíble de que el programa funciona antes de comprometer recursos
La eficacia del programa es genuinamente incierta — la intervención tiene una teoría del cambio plausible pero no ha sido probada rigurosamente en este contexto
Existe competencia de políticas — comparar dos enfoques alternativos requiere un diseño comparativo para determinar cuál es más efectivo
Los requisitos de los donantes lo mandan — USAID, USDA y el World Bank requieren cada vez más evaluaciones de impacto para programas por encima de ciertos umbrales, particularmente para seguridad alimentaria, salud y agricultura
Las apuestas son altas — los programas que afectan a grandes números de personas o involucran recursos significativos justifican la inversión en evaluación rigurosa

La evaluación de impacto no es apropiada cuando el programa aún se está desarrollando (use evaluación formativa primero), cuando los resultados no pueden medirse en el cronograma del programa, cuando un contrafactual no puede construirse ética o prácticamente, o cuando la pregunta de evaluación es sobre cómo ocurrieron los resultados en lugar de si ocurrieron (use análisis de contribución o rastreo de procesos en su lugar).

Escenario	¿Usar Evaluación de Impacto?	Mejor Alternativa
Decisión de escala para modelo probado	Sí	—
Desarrollo de programa en etapa temprana	No	Evaluación formativa
Cambio complejo multi-actor	No	Análisis de Contribución
Cómo y por qué ocurrió el cambio	No	Rastreo de Procesos
No es posible contrafactual	No	Análisis de Contribución
Mandatos de donantes exigen evidencia de atribución	Sí	—

Cómo Funciona

Todas las evaluaciones de impacto se basan en una idea central: el contrafactual — lo que habría ocurrido a los participantes del programa en ausencia del programa. Como no puede observar a las mismas personas tanto con como sin el programa, construye un grupo de comparación que aproxime este contrafactual.

Paso 1: Planifique en la etapa de diseño

Las evaluaciones de impacto deben planificarse antes de que comience el programa. La evaluación de impacto retrospectiva rara vez es creíble. Los datos de línea de base deben recolectarse antes de que comience el programa.

Paso 2: Defina la pregunta de evaluación

Indique con precisión qué resultado está tratando de medir, para quién, durante qué período de tiempo y a qué nivel geográfico. Las preguntas vagas producen evaluaciones inconclusas.

Paso 3: Elija un diseño

La elección del diseño depende de si la asignación aleatoria es factible:

Ensayo Controlado Aleatorizado (RCT) — los participantes se asignan aleatoriamente al tratamiento o control. Estándar de oro para validez interna pero costoso y a menudo éticamente difícil
Diseños cuasi-experimentales — cuando la randomización no es posible: diferencia-en-diferencias, emparejamiento de puntaje de propensión, discontinuidad de regresión, o series de tiempo interrumpidas. Vea diseño cuasi-experimental para detalles

Paso 4: Establezca línea de base

Recolecte datos sobre resultados para ambos grupos, tratamiento y comparación, antes de que comience el programa. Esto es no negociable. Los dos grupos deben ser comparables en la línea de base — cualquier diferencia debe documentarse y controlarse en el análisis.

Paso 5: Implemente con integridad de evaluación

Monitoree la contaminación (grupo de acceso al programa), la deserción (perder participantes del estudio) y la fidelidad del diseño (programa entregado como se pretendía). Estas amenazas a la validez deben gestionarse durante toda la implementación.

Paso 6: Recolecte datos de seguimiento y analice

Recolecte datos de línea media y línea final en intervalos preespecificados. Analice usando los métodos estadísticos apropiados para el diseño elegido. Informe el tamaño del efecto del tratamiento con intervalos de confianza, no solo pruebas de significancia.

Paso 7: Interprete y comunique hallazgos

Un efecto estadísticamente significativo no es lo mismo que uno prácticamente significativo. Informe tamaños de efecto en términos que los tomadores de decisiones entiendan (cambios absolutos, cambios porcentuales, vidas afectadas) junto con la significancia estadística.

Componentes Clave

Contrafactual — un grupo de comparación creíble que aproxima lo que habría ocurrido sin el programa
Datos de línea de base — mediciones de resultados previos a la intervención para ambos grupos
Indicador de resultado principal — uno o dos resultados clave que la evaluación puede detectar
Cálculo del tamaño de muestra — determina cuántos participantes se necesitan para detectar un efecto de magnitud esperada
Pre-registro — registrar el diseño de evaluación, hipótesis y plan de análisis antes de la recolección de datos (cada vez más requerido por 3ie, J-PAL y donantes principales)
Datos de seguimiento — mediciones de línea media y línea final en intervalos preespecificados
Plan de análisis — métodos estadísticos preespecificados para evitar la excavación de datos

Mejores Prácticas

Compromiso con el contrafactual. Toda la credibilidad de una evaluación de impacto depende de la calidad del grupo de comparación. La asignación aleatoria es el estándar de oro; cuando no es factible, documente cuidadosamente por qué y use el mejor diseño cuasi-experimental disponible.

Mandate recolección de datos de línea de base. Sin línea de base no hay evaluación de impacto — solo una comparación antes-después, que no puede descartar tendencias que habrían ocurrido de todos modos.

Potencie el estudio para detectar efectos realistas. Los estudios subpotenciados producen resultados inconclusos independientemente de qué tan bien se haga todo lo demás. Trabaje con un estadístico para calcular tamaños de muestra mínimos basados en tamaños de efecto esperados.

Use los mismos instrumentos entre grupos. Las herramientas y preguntas de encuesta deben ser idénticas entre los grupos de tratamiento y comparación para asegurar comparabilidad.

Pre-registre el diseño. El pre-registro evita el reporte selectivo de hallazgos positivos y construye credibilidad con donantes y políticos. 3ie, AEA RCT Registry y RIDIE son los principales registros.

Errores Comunes

Empezar demasiado tarde. Las evaluaciones de impacto diseñadas después de que comienza la implementación no pueden establecer líneas de base válidas. El error más común y más costoso en evaluación de impacto es el fallo de planificar prospectivamente.

Pedirle a la evaluación de impacto que responda preguntas de proceso. Una evaluación de impacto le dice si los resultados cambiaron. No le dirá por qué, para quién varió el efecto, o qué mecanismos lo produjeron. Emparejela con métodos cualitativos para ideas de proceso.

Atención inadecuada a la calidad del grupo de comparación. El emparejamiento de puntaje de propensión, diferencia-en-diferencias y discontinuidad de regresión dependen de supuestos que deben probarse e informarse. Presentar resultados cuasi-experimentales sin discutir la plausibilidad de los supuestos del diseño es engañoso.

Conflar significancia estadística con éxito del programa. Un efecto estadísticamente significativo de magnitud insignificante no es un éxito del programa. Informe e interprete tamaños de efecto.

Negligencia de resultados negativos. Los resultados nulos son información. Una evaluación de impacto bien conducida que no encuentra efecto es evidencia valiosa. Suprima resultados nulos y distorsionará la base de evidencia.

Ejemplos

Medios de vida agrícolas, África Oriental. Un programa de seguridad alimentaria financiado por USDA en Etiopía usó un diseño cuasi-experimental con emparejamiento de puntaje de propensión para evaluar el impacto en la diversidad dietética del hogar y los ingresos. Los datos de línea de base se recolectaron para 3,000 hogares de tratamiento y 2,400 hogares de comparación emparejados antes del inicio del programa. Las encuestas de línea media y línea final rastrearon resultados durante cinco años. La evaluación encontró una mejora de 0.8 desviaciones estándar en las puntuaciones de diversidad dietética en los hogares de tratamiento en relación con la comparación, atribuida al programa. El efecto se concentró en hogares encabezados por mujeres, lo que provocó una revisión del diseño para el programa de seguimiento.

Salud, África Occidental. Un programa de prevención de malaria financiado por USAID en Nigeria usó un diseño de ensayo aleatorizado por conglomerados, randomizando 60 comunidades al tratamiento (distribución gratuita de mosquiteros más visitas de trabajadores de salud comunitarios) o control (mosquiteros gratuitos solo). La evaluación encontró que agregar visitas de trabajadores de salud comunitarios produjo un aumento de 23 puntos porcentuales en el uso consistente de mosquiteros en relación con los mosquiteros solos, justificando el costo adicional del componente de trabajador de salud comunitario en la planificación de escala nacional.

Educación, Asia Meridional. Un programa de mejora del aprendizaje apoyado por el World Bank en Pakistán usó un diseño de discontinuidad de regresión basado en clasificaciones de puntuaciones de prueba a nivel de escuela para evaluar el impacto en el logro estudiantil. Las escuelas justo debajo del umbral de elegibilidad se compararon con las escuelas justo encima. La evaluación encontró una mejora de 0.4 desviaciones estándar en las puntuaciones de alfabetización entre estudiantes de Grado 3 en escuelas del programa, con efectos más grandes para niñas y escuelas rurales.

Comparado Con

Enfoque	Reclamación Causal	Contrafactual	Adecuado Cuando
Evaluación de Impacto	Efecto atribuible	Explícito	Contrafactual factible, decisión de escala
Diseño Cuasi-Experimental	Efecto atribuible	Construido	Randomización no factible
Análisis de Contribución	Contribución plausible	Ninguno	Cambio complejo, multi-actor
Rastreo de Procesos	Mecanismo causal	Ninguno	Entender cómo ocurrió el cambio
Evaluación Realista	Mecanismos contextuales	Parcial	Qué funciona, para quién

Indicadores Relevantes

52 indicadores alineados con donantes a través de USAID, DFID, World Bank, 3ie, USDA y Global Fund. Ejemplos clave:

Cambio neto atribuible en resultado principal entre línea de base y línea final (tratamiento vs. comparación)
Tamaño del efecto (Cohen's d o diferencia de puntos porcentuales) al finalizar el programa
Proporción de hipótesis de evaluación confirmadas versus desconfirmadas
Puntuación de fidelidad para la implementación del programa como se diseñó

Herramientas Relacionadas

Planificador de Evaluación — estructure su diseño de evaluación y cronograma desde el inicio del programa
Biblioteca de Indicadores — encuentre indicadores de resultado alineados con donantes para su sector

Temas Relacionados

Diseño Cuasi-Experimental — la alternativa más común cuando los RCT no son factibles
Análisis de Contribución — para cuando no se puede construir un contrafactual
Diseño de Línea de Base — la recolección de datos fundamental sin la cual no es posible ninguna evaluación de impacto
Atribución vs. Contribución — entendiendo la distinción entre evaluación de impacto y reclamaciones de contribución
Evaluación de Métodos Mixtos — emparejando estimaciones de impacto cuantitativas con ideas de proceso cualitativas

Lectura Adicional

Gertler, P., Martinez, S., Premand, P., Rawlings, L., & Vermeersch, C. (2016). Evaluación de Impacto en la Práctica. 2da ed. World Bank. La guía de práctica más accesible.
White, H. (2014). Desafíos Actuales en la Evaluación de Impacto. Documento de Trabajo 3ie 18. Revisa debates metodológicos.
J-PAL (2019). Introducción a las Evaluaciones. Poverty Action Lab. Curso en línea gratuito que cubre diseño RCT.
USAID (2016). Evaluación: Aprendizaje de la Experiencia. ADS 203. Política de USAID sobre evaluación incluyendo requisitos de evaluación de impacto.