Diseño Cuasi-Experimental - Biblioteca de M&E

Cuándo Usar

Los diseños cuasi-experimentales (QEDs) se sitúan entre los diseños experimentales (RCTs) y las evaluaciones puramente descriptivas. Intentan responder "¿Causó el programa este cambio?" sin asignación aleatoria. Úselos cuando:

La asignación aleatoria no es factible — preocupaciones éticas, restricciones operativas o resistencia política impiden la aleatorización, pero aún se necesita atribución causal
Existe un grupo de comparación natural — las reglas de elegibilidad del programa, los cronogramas de implementación por fases o los límites geográficos crean grupos que difieren solo en la exposición al programa
Hay datos administrativos disponibles — los registros gubernamentales, los registros de salud o los datos de matrícula escolar permiten el emparejamiento y la comparación retrospectivos
Ocurrió un experimento natural — un cambio de política, un umbral de elegibilidad o un shock externo crean una variación cuasi-aleatoria en la exposición al programa que puede aprovecharse
Los donantes requieren evidencia de atribución — USAID, USDA y el Banco Mundial aceptan diseños cuasi-experimentales creíbles como evidencia de la eficacia del programa

Los QED no son apropiados cuando no se puede construir un grupo de comparación creíble, cuando los supuestos del diseño no se pueden probar o defender, o cuando las preguntas de proceso (por qué y cómo) son más importantes que la atribución causal (use análisis de contribución o rastreo de procesos en esos casos).

Escenario	¿Usar QED?	Mejor Alternativa
Barrera ética o logística para RCT	Sí	—
Existe umbral de elegibilidad natural	Sí (discontinuidad regresiva)	—
Despliegue por fases posible	Sí (diferencia en diferencias)	—
No es factible grupo de comparación	No	Análisis de Contribución
Las preguntas de proceso son primarias	No	Rastreo de Procesos
Donante requiere evidencia de estándar de oro	No	RCT

Cómo Funciona

No existe un único diseño cuasi-experimental — QED es una familia de enfoques, cada uno adecuado para diferentes situaciones de datos y supuestos. Los cuatro diseños principales son:

Diseño 1: Diferencia en Diferencias (DiD)

Compare el cambio en los resultados a lo largo del tiempo en un grupo de tratamiento frente al cambio en un grupo de comparación que no recibió el programa. La estimación DiD es la "doble diferencia": (tratamiento post − tratamiento pre) menos (comparación post − comparación pre). Supuesto clave: en ausencia del programa, ambos grupos habrían experimentado tendencias similares ("tendencias paralelas"). Requiere datos de panel para ambos grupos en la línea de base y el seguimiento.

Diseño 2: Emparejamiento por Puntuación de Propensión (PSM)

Empareje a cada participante del programa con uno o más no participantes que sean estadísticamente similares en las características observadas. Compare los resultados entre los pares emparejados. La estimación PSM es el "efecto promedio del tratamiento sobre los tratados" (ATT). Supuesto clave: todas las variables que determinan tanto la participación en el programa como los resultados son observables e incluidas en el modelo de emparejamiento.

Para implementar PSM: recolectar datos de línea de base sobre una amplia gama de características para participantes y no participantes; estimar un modelo de regresión logística que prediga la participación en el programa; usar las probabilidades predichas (puntuaciones de propensión) para emparejar participantes y no participantes; verificar el equilibrio; comparar resultados.

Diseño 3: Discontinuidad Regresiva (RD)

Explotar un umbral en un criterio de elegibilidad continuo para comparar a los participantes justo por encima del umbral (elegibles) contra aquellos justo por debajo (no elegibles). La estimación RD se aplica solo a aquellos cerca del umbral. Supuesto clave: las unidades no pueden manipular con precisión su puntuación para estar justo por encima o por debajo del umbral. Requiere una muestra grande cerca del umbral y una variable continua de ejecución.

Diseño 4: Serie Temporal Interrumpida (ITS)

Analizar una serie temporal larga de resultados antes y después de la introducción del programa, controlando por tendencias preexistentes. Útil cuando una política o programa único se introduce en un punto específico del tiempo y los datos administrativos proporcionan muchos puntos temporales previos a la intervención. Funciona sin un grupo de comparación pero se fortalece al incluir uno.

Componentes Clave

Grupo de comparación — un grupo que no recibe el programa cuyos resultados se pueden comparar con los participantes
Datos de línea de base para ambos grupos — mediciones de resultados y covariables previas al programa para tratamiento y comparación
Instrumentos idénticos o comparables — las mismas herramientas de encuesta utilizadas para ambos grupos en cada punto de recolección de datos
Pruebas de equilibrio — pruebas estadísticas que confirman que los grupos de tratamiento y comparación son comparables en la línea de base en características observadas
Pruebas de supuestos del diseño — pruebas explícitas de los supuestos identificadores clave (tendencias paralelas, soporte común para PSM, pruebas de manipulación de umbral para RD)
Análisis de sensibilidad — probar si la estimación del efecto del tratamiento cambia bajo especificaciones de modelo alternativas
Medidas adicionales invariantes en el tiempo — variables de línea de base que no se espera que cambien, incluidas para mejorar la calidad del emparejamiento

Mejores Prácticas

Maximizar la comparabilidad mediante instrumentos idénticos. Los datos del grupo de tratamiento y comparación deben recolectarse utilizando los mismos instrumentos de encuesta, al mismo tiempo, por los mismos (o encuestadores equivalentemente capacitados). Cualquier diferencia en la recolección de datos contamina la comparación.

Probar y reportar el equilibrio, no solo el emparejamiento. PSM no está completo cuando se realiza el emparejamiento — debe probar si los grupos emparejados están realmente equilibrados en variables clave y reportar los resultados. Las muestras emparejadas desequilibradas indican que el modelo de emparejamiento necesita revisión.

Pre-especificar el análisis principal. Documentar el método de análisis previsto, las covariables y la especificación de los resultados antes de la recolección de datos. Esto evita la selección de modelos post-hoc que infla las tasas de falsos positivos.

Incluir variables invariantes en el tiempo en el emparejamiento. Añadir variables que son estables a lo largo del tiempo (por ejemplo, propiedad de la tierra, etnia, composición del hogar en la línea de base) mejora la calidad del emparejamiento y reduce el sesgo.

Reportar las limitaciones del diseño honestamente. Cada QED involucra supuestos no comprobables. Un informe de evaluación creíble declara estos supuestos claramente y explica por qué son razonables dado el contexto.

Errores Comunes

Tratar el PSM como suficiente sin pruebas de equilibrio. El emparejamiento por puntuación de propensión no garantiza el equilibrio. Siempre probar el equilibrio de covariables post-emparejamiento y volver a emparejar si el equilibrio es pobre.

Ignorar el supuesto de tendencias paralelas en DiD. Las estimaciones de diferencia en diferencias son inválidas si los grupos de tratamiento y comparación tenían tendencias previas al programa diferentes. Probar tendencias paralelas usando datos previos al programa si están disponibles.

Usar un grupo de comparación geográficamente próximo sin controles de derrame. Si los hogares del grupo de comparación pueden observar o interactuar con los hogares de tratamiento, la contaminación sesga la estimación hacia cero.

Afirmar que el QED es "tan bueno como un RCT". Los diseños cuasi-experimentales hacen supuestos adicionales que los RCT no hacen. Declarar claramente el diseño y sus supuestos; no exagerar la garantía causal.

Pesca de datos retrospectiva. Usar conjuntos de datos existentes sin un plan de análisis pre-especificado crea oportunidades para la selección de modelos que produce hallazgos de falsos positivos. Pre-registrar el análisis siempre que sea posible.

Ejemplos

Seguridad alimentaria, América Latina. Un programa financiado por USDA en Honduras utilizó emparejamiento por puntuación de propensión para evaluar el impacto en las puntuaciones de seguridad alimentaria del hogar. Los datos de línea de base incluyeron 40 variables sobre demografía del hogar, activos y prácticas agrícolas para 2,400 hogares de tratamiento y 2,400 hogares de comparación. Después del emparejamiento, las diferencias medias estandarizadas para las 40 variables cayeron por debajo de 0.10, indicando buen equilibrio. La estimación DiD en la línea final mostró una mejora de 0.6 desviaciones estándar en las puntuaciones de seguridad alimentaria entre los hogares de tratamiento en comparación con las comparaciones emparejadas.

Educación, África Oriental. Un programa de mejora escolar en Kenia utilizó discontinuidad regresiva basada en puntuaciones de pobreza del distrito que determinaron la elegibilidad del programa. Las escuelas que puntuaron justo por debajo del umbral de elegibilidad (elegibles) se compararon con las escuelas justo por encima (no elegibles). El análisis de datos de puntuaciones de exámenes nacionales mostró una mejora de 3.8 puntos porcentuales en las tasas de aprobación entre las escuelas elegibles en comparación con las no elegibles en el umbral, sin evidencia de manipulación de puntuaciones cerca del umbral.

Salud, Asia Meridional. Un programa de salud comunitaria financiado por DFID en Bangladesh utilizó análisis de serie temporal interrumpida de las tasas mensuales de entrega en instalaciones a través de 120 sub-distritos de intervención, con 60 sub-distritos de comparación emparejados sirviendo como la serie de comparación. El modelo ITS estimó un aumento de 12 puntos porcentuales en las tasas de entrega en instalaciones atribuible al programa, por encima de la tendencia preexistente, con el efecto sostenido durante 24 meses posteriores a la introducción.

Comparado Con

Diseño	Aleatorización	Contrafactual	Supuesto Clave
QED (PSM)	Ninguna	Construido mediante emparejamiento	Todos los confundidores observados
QED (DiD)	Ninguna	Tendencias paralelas	Tendencia común ausente programa
QED (RD)	Ninguna	Discontinuidad de umbral	Sin manipulación de puntuación
RCT	Aleatoria	Grupo de control directo	Integridad de aleatorización
Análisis de Contribución	Ninguna	Ninguna	Historia causal plausible

Indicadores Relevantes

38 indicadores en los marcos de USAID, Banco Mundial, USDA y 3ie. Ejemplos clave:

Diferencia media estandarizada en variables clave de línea de base entre grupos de tratamiento y comparación (meta < 0.10)
Estimación del efecto del tratamiento de diferencia en diferencias con intervalo de confianza del 95%
Porcentaje de soporte común (proporción del grupo de tratamiento con unidades de comparación emparejadas en PSM)
Número de periodos previos al programa utilizados para probar el supuesto de tendencias paralelas

Herramientas Relacionadas

Planificador de Evaluación — estructurar la recolección de datos de línea de base y la selección del grupo de comparación
Biblioteca de Indicadores — identificar medidas de resultados apropiadas para su evaluación

Temas Relacionados

Evaluación de Impacto — la categoría más amplia que incluye tanto RCTs como diseños cuasi-experimentales
Diseño de Línea de Base — recolectar los datos que permiten el análisis cuasi-experimental
Métodos de Muestreo — cómo muestrear poblaciones de tratamiento y comparación
Significancia Estadística — interpretar valores p e intervalos de confianza en el análisis de evaluación
Atribución vs. Contribución — cuándo el QED es apropiado versus análisis de contribución

Lecturas Adicionales

Gertler, P. et al. (2016). Evaluación de Impacto en la Práctica. 2ª ed. Banco Mundial. Los capítulos 5-8 cubren diseños cuasi-experimentales con explicaciones accesibles.
Rosenbaum, P. & Rubin, D. (1983). "El Papel Central de la Puntuación de Propensión en Estudios Observacionales para Efectos Causales." Biometrika, 70(1), 41-55. El documento fundacional de PSM.
Imbens, G. & Lemieux, T. (2008). "Diseños de Discontinuidad Regresiva: Una Guía para la Práctica." Journal of Econometrics, 142(2), 615-635. La referencia estándar de RD.
3ie (2012). Diseños Cuasi-Experimentales para Evaluaciones de Desarrollo. Serie de Evaluación de Impacto. Orientación práctica para profesionales del desarrollo.