Evaluación de Impacto: Metodología y Aplicación

Descubre cómo la evaluación de impacto mide rigurosamente el efecto causal de un programa, comparando los resultados observados con lo que habría sucedido en su ausencia. Esencial para decisiones de escalamiento y justificación de inversiones.

También conocido como: IE, Evaluación de Impacto, Evaluación Causal, Evaluación Sumativa

Cuándo aplicar una Evaluación de Impacto

La evaluación de impacto es el enfoque idóneo cuando es crucial determinar si un programa causó los cambios observados en los resultados. No se trata solo de si los resultados mejoraron, sino de si esa mejora fue directamente atribuible al programa. Este es un estándar riguroso que exige una inversión considerable en diseño y recopilación de datos. Considere su aplicación cuando:

  • Las decisiones de escalamiento dependen de evidencia sólida: Gobiernos o donantes que contemplan una implementación a gran escala requieren evidencia fehaciente de que el programa funciona antes de asignar recursos.
  • La eficacia del programa es realmente incierta: La intervención posee una Teoría del Cambio plausible, pero no ha sido rigurosamente probada en este contexto.
  • Existe competencia entre políticas: Comparar dos enfoques alternativos exige un diseño comparativo para determinar cuál es más eficaz.
  • Los requisitos de los donantes lo exigen: USAID, USDA y el Banco Mundial (World Bank) exigen cada vez más evaluaciones de impacto para programas que superan ciertos umbrales, especialmente en seguridad alimentaria, salud y agricultura.
  • Los riesgos son elevados: Los programas que impactan a un gran número de personas o implican recursos significativos justifican la inversión en una evaluación rigurosa.

La evaluación de impacto no es adecuada cuando el programa aún está en fase de desarrollo (en cuyo caso, se recomienda una evaluación formativa), cuando los resultados no pueden medirse dentro del cronograma del programa, cuando no es posible construir un contrafactual de manera ética o práctica, o cuando la pregunta de evaluación se centra en cómo ocurrieron los resultados en lugar de si ocurrieron (para estos casos, considere el análisis de contribución o el rastreo de procesos).

Escenario¿Usar Evaluación de Impacto?Mejor Alternativa
Decisión de escalamiento para modelo probado-
Programa en fase inicial de desarrolloNoEvaluación formativa
Cambio complejo con múltiples actoresNoAnálisis de Contribución
Entender cómo y por qué ocurrió el cambioNoRastreo de Procesos
Imposibilidad de construir un contrafactualNoAnálisis de Contribución
Mandatos de donantes que exigen evidencia de atribución-

Cómo se lleva a cabo una Evaluación de Impacto

Toda evaluación de impacto se fundamenta en una idea central: el contrafactual. Este representa lo que les habría sucedido a los participantes del programa en ausencia de la intervención. Dado que no es posible observar a las mismas personas con y sin el programa, se construye un grupo de comparación que simule este contrafactual.

Paso 1: Planificación en la fase de diseño

Las evaluaciones de impacto deben planificarse antes del inicio del programa. Una evaluación de impacto retrospectiva rara vez ofrece credibilidad. Es imprescindible recopilar los datos de línea de base antes de que el programa comience.

Paso 2: Definición de la pregunta de evaluación

Especifique con precisión qué resultado se busca medir, para quién, durante qué período y a qué nivel geográfico. Las preguntas ambiguas suelen conducir a evaluaciones inconclusas.

Paso 3: Selección del diseño

La elección del diseño dependerá de la viabilidad de la asignación aleatoria:

  • Ensayo Controlado Aleatorizado (RCT): Los participantes se asignan aleatoriamente a un grupo de tratamiento o a un grupo de control. Es el estándar de oro para la validez interna, pero suele ser costoso y, a menudo, presenta desafíos éticos.
  • Diseños cuasi-experimentales: Se aplican cuando la aleatorización no es factible. Incluyen métodos como diferencia en diferencias, emparejamiento por puntaje de propensión, discontinuidad de regresión o series de tiempo interrumpidas. Consulte diseño cuasi-experimental para más detalles.

Paso 4: Establecimiento de la línea de base

Recopile datos sobre los resultados para ambos grupos, el de tratamiento y el de comparación, antes del inicio del programa. Este paso es innegociable. Ambos grupos deben ser comparables en la línea de base; cualquier diferencia debe documentarse y controlarse durante el análisis.

Paso 5: Implementación con integridad evaluativa

Monitoree la contaminación (acceso del grupo de control al programa), la deserción (pérdida de participantes del estudio) y la fidelidad del diseño (ejecución del programa según lo previsto). Estas amenazas a la validez deben gestionarse a lo largo de toda la implementación.

Paso 6: Recopilación y análisis de datos de seguimiento

Recopile datos de línea media y línea final en intervalos preestablecidos. Analice utilizando los métodos estadísticos adecuados para el diseño seleccionado. Presente la magnitud del efecto del tratamiento con intervalos de confianza, no solo pruebas de significancia estadística.

Paso 7: Interpretación y comunicación de resultados

Un efecto estadísticamente significativo no siempre equivale a uno prácticamente significativo. Presente los tamaños del efecto en términos comprensibles para los tomadores de decisiones (cambios absolutos, cambios porcentuales, vidas impactadas), junto con su significancia estadística.

Elementos Esenciales de una Evaluación de Impacto

  • Contrafactual: Un grupo de comparación creíble que simula lo que habría ocurrido sin la intervención del programa.
  • Datos de línea de base: Mediciones de resultados previas a la intervención para ambos grupos.
  • Indicador de resultado principal: Uno o dos resultados clave que la evaluación está diseñada para detectar.
  • Cálculo del tamaño de muestra: Determina el número de participantes necesarios para detectar un efecto de la magnitud esperada.
  • Pre-registro: Consiste en registrar el diseño de la evaluación, las hipótesis y el plan de análisis antes de la recopilación de datos (requisito cada vez más común por parte de 3ie, J-PAL y los principales donantes).
  • Datos de seguimiento: Mediciones de línea media y línea final en intervalos preestablecidos.
  • Plan de análisis: Métodos estadísticos preestablecidos para evitar la 'minería de datos' (data dredging).

Buenas Prácticas en Evaluación de Impacto

Compromiso con el contrafactual. La credibilidad de una evaluación de impacto reside enteramente en la calidad de su grupo de comparación. La asignación aleatoria es el estándar de oro; cuando no sea factible, documente cuidadosamente las razones y utilice el mejor diseño cuasi-experimental disponible.

Asegure la recopilación de datos de línea de base. Sin una línea de base, no hay evaluación de impacto; solo una comparación antes-después que no puede descartar tendencias que habrían ocurrido de todos modos.

Diseñe el estudio con suficiente potencia para detectar efectos realistas. Los estudios con potencia insuficiente generan resultados inconclusos, independientemente de la calidad de los demás aspectos. Colabore con un estadístico para calcular los tamaños de muestra mínimos basados en los tamaños de efecto esperados.

Utilice los mismos instrumentos en todos los grupos. Las herramientas y preguntas de la encuesta deben ser idénticas entre los grupos de tratamiento y comparación para garantizar la comparabilidad.

Pre-registre el diseño. El pre-registro previene el reporte selectivo de hallazgos positivos y fomenta la credibilidad ante donantes y formuladores de políticas. 3ie, AEA RCT Registry y RIDIE son los registros más reconocidos.

Errores Frecuentes en Evaluaciones de Impacto

Comenzar demasiado tarde. Las evaluaciones de impacto diseñadas una vez iniciada la implementación no pueden establecer líneas de base válidas. El error más común y costoso en este tipo de evaluación es la falta de planificación prospectiva.

Esperar que la evaluación de impacto responda preguntas de proceso. Una evaluación de impacto determina si los resultados cambiaron. No explica por qué, para quién varió el efecto, ni qué mecanismos lo produjeron. Complemente con métodos cualitativos para obtener información sobre el proceso.

Atención insuficiente a la calidad del grupo de comparación. Métodos como el emparejamiento por puntaje de propensión, diferencia en diferencias y discontinuidad de regresión se basan en supuestos que deben ser probados y comunicados. Presentar resultados cuasi-experimentales sin discutir la plausibilidad de los supuestos del diseño puede ser engañoso.

Confundir significancia estadística con éxito del programa. Un efecto estadísticamente significativo de magnitud insignificante no constituye un éxito del programa. Es crucial informar e interpretar los tamaños del efecto.

Ignorar los resultados nulos. Los resultados nulos también son información valiosa. Una evaluación de impacto bien ejecutada que no encuentra un efecto es evidencia importante. Suprimir estos resultados distorsiona la base de evidencia.

Casos Prácticos de Evaluación de Impacto

Medios de vida agrícolas, África Oriental. Un programa de seguridad alimentaria financiado por el USDA en Etiopía empleó un diseño cuasi-experimental con emparejamiento por puntaje de propensión para evaluar su impacto en la diversidad dietética y los ingresos de los hogares. Se recopilaron datos de línea de base para 3,000 hogares de tratamiento y 2,400 hogares de comparación emparejados antes del inicio del programa. Encuestas de línea media y línea final monitorearon los resultados durante cinco años. La evaluación reveló una mejora de 0.8 desviaciones estándar en las puntuaciones de diversidad dietética en los hogares de tratamiento en comparación con el grupo de control, atribuida al programa. El efecto se concentró en hogares liderados por mujeres, lo que llevó a una revisión del diseño para el programa de seguimiento.

Salud, África Occidental. Un programa de prevención de malaria financiado por USAID en Nigeria utilizó un diseño de ensayo aleatorizado por conglomerados, asignando aleatoriamente 60 comunidades al tratamiento (distribución gratuita de mosquiteros más visitas de trabajadores de salud comunitarios) o al control (solo mosquiteros gratuitos). La evaluación concluyó que añadir las visitas de trabajadores de salud comunitarios generó un aumento de 23 puntos porcentuales en el uso consistente de mosquiteros en comparación con la distribución de mosquiteros solos, lo que justificó el costo adicional del componente de trabajador de salud comunitario en la planificación a escala nacional.

Educación, Asia Meridional. Un programa de mejora del aprendizaje respaldado por el Banco Mundial (World Bank) en Pakistán empleó un diseño de discontinuidad de regresión, basado en clasificaciones de puntajes de pruebas a nivel escolar, para evaluar el impacto en el rendimiento estudiantil. Se compararon las escuelas justo por debajo del umbral de elegibilidad con aquellas justo por encima. La evaluación reveló una mejora de 0.4 desviaciones estándar en los puntajes de alfabetización entre los estudiantes de tercer grado en las escuelas del programa, con efectos más pronunciados para niñas y escuelas rurales.

Diferencias con Otros Enfoques de Evaluación

EnfoqueAfirmación CausalContrafactualAdecuado para
Evaluación de ImpactoEfecto atribuibleExplícitoContrafactual factible, decisiones de escalamiento
Diseño Cuasi-ExperimentalEfecto atribuibleConstruidoAleatorización no factible
Análisis de ContribuciónContribución plausibleNingunoCambio complejo, múltiples actores
Rastreo de ProcesosMecanismo causalNingunoEntender cómo ocurrió el cambio
Evaluación RealistaMecanismos contextualesParcialQué funciona, para quién y en qué circunstancias

Indicadores Clave

Contamos con 52 indicadores alineados con donantes como USAID, DFID, el Banco Mundial (World Bank), 3ie, USDA y el Fondo Mundial (Global Fund). Ejemplos clave incluyen:

  • Cambio neto atribuible en el resultado principal entre la línea de base y la línea final (grupo de tratamiento vs. grupo de comparación)
  • Tamaño del efecto (d de Cohen o diferencia de puntos porcentuales) al finalizar el programa
  • Proporción de hipótesis de evaluación confirmadas frente a desconfirmadas
  • Puntuación de fidelidad en la implementación del programa según lo diseñado

Herramientas Complementarias

  • Planificador de Evaluación: Estructure su diseño de evaluación y cronograma desde el inicio del programa.
  • Biblioteca de Indicadores: Encuentre indicadores de resultado alineados con los requisitos de los donantes para su sector.

Artículos Relacionados