Diseño Cuasi-Experimental

Metodologías de evaluación para estimar efectos causales de programas sin asignación aleatoria, utilizando técnicas estadísticas para crear grupos de comparación fiables.

También conocido como: QED, Evaluación cuasi-experimental, Diseño no experimental, Diseño causal observacional, Diseño cuasiexperimental

Cuándo aplicar un diseño cuasi-experimental

Los diseños cuasi-experimentales (DCE) se posicionan entre los diseños experimentales (ECA) y las evaluaciones meramente descriptivas. Su objetivo es responder a la pregunta "¿Fue el programa la causa de este cambio?" sin recurrir a la asignación aleatoria. Son adecuados cuando:

  • La asignación aleatoria no es viable: Cuando consideraciones éticas, limitaciones operativas o resistencia política impiden la aleatorización, pero la atribución causal sigue siendo necesaria.
  • Existe un grupo de comparación natural: Las reglas de elegibilidad del programa, los calendarios de implementación por fases o las fronteras geográficas pueden generar grupos que difieren únicamente en su exposición al programa.
  • Se dispone de datos administrativos: Registros gubernamentales, expedientes de salud o datos de matrícula escolar que posibilitan el emparejamiento y la comparación retrospectiva.
  • Ha ocurrido un experimento natural: Un cambio de política, un umbral de elegibilidad o un choque externo que genera una variación cuasi-aleatoria en la exposición al programa, la cual puede ser aprovechada.
  • Los donantes exigen evidencia de atribución: Organizaciones como USAID, USDA y el Banco Mundial aceptan diseños cuasi-experimentales rigurosos como prueba de la efectividad de un programa.

Los DCE no son adecuados cuando no es posible construir un grupo de comparación fiable, cuando los supuestos del diseño no pueden ser verificados o justificados, o cuando las preguntas sobre el proceso (el porqué y el cómo) prevalecen sobre la atribución causal (en tales casos, considere el análisis de contribución o el rastreo de procesos).

Situación¿Aplicar DCE?Alternativa preferible
Obstáculo ético o logístico para un ECA-
Existe un umbral de elegibilidad naturalSí (regresión con discontinuidad)-
Implementación por fases posibleSí (diferencia en diferencias)-
Grupo de comparación inviableNoAnálisis de Contribución
Las preguntas de proceso son prioritariasNoRastreo de Procesos
Donante exige evidencia de "estándar de oro"NoECA

Tipos de diseños cuasi-experimentales y su funcionamiento

No existe un único diseño cuasi-experimental; los DCE son una familia de enfoques, cada uno adaptado a distintas situaciones de datos y supuestos. Los cuatro diseños principales son:

Diseño 1: Diferencia en Diferencias (DiD)

Compara el cambio en los resultados a lo largo del tiempo en un grupo de tratamiento frente al cambio en un grupo de comparación que no recibió el programa. La estimación DiD es la "doble diferencia": (post-tratamiento − pre-tratamiento) menos (post-comparación − pre-comparación). Supuesto clave: en ausencia del programa, ambos grupos habrían seguido tendencias similares ("tendencias paralelas"). Requiere datos de panel para ambos grupos en la línea de base y el seguimiento.

Diseño 2: Emparejamiento por Puntuación de Propensión (PSM)

Empareja a cada participante del programa con uno o más no participantes que sean estadísticamente similares en sus características observables. Luego, compara los resultados entre los pares emparejados. La estimación PSM es el "efecto promedio del tratamiento sobre los tratados" (ATT). Supuesto clave: todas las variables que influyen tanto en la participación en el programa como en los resultados son observables y están incluidas en el modelo de emparejamiento.

Para implementar el PSM: recopilar datos de línea de base sobre una amplia gama de características tanto para participantes como para no participantes; estimar un modelo de regresión logística que prediga la participación en el programa; utilizar las probabilidades predichas (puntuaciones de propensión) para emparejar participantes y no participantes; verificar el balance; y finalmente, comparar los resultados.

Diseño 3: Regresión con Discontinuidad (RD)

Aprovecha un umbral en un criterio de elegibilidad continuo para comparar a los participantes que se encuentran justo por encima del umbral (elegibles) con aquellos que están justo por debajo (no elegibles). La estimación RD se aplica únicamente a quienes están cerca del umbral. Supuesto clave: las unidades no pueden manipular con precisión su puntuación para situarse justo por encima o por debajo del umbral. Requiere una muestra grande cerca del umbral y una variable de ejecución continua.

Diseño 4: Serie Temporal Interrumpida (ITS)

Analiza una serie temporal extensa de resultados antes y después de la introducción de un programa, controlando las tendencias preexistentes. Es útil cuando una política o programa único se introduce en un punto temporal específico y los datos administrativos ofrecen numerosos puntos de datos previos a la intervención. Funciona sin un grupo de comparación, pero su robustez aumenta al incluir uno.

Elementos clave de un diseño cuasi-experimental

  • Grupo de comparación: Un grupo que no participa en el programa y cuyos resultados pueden compararse con los de los participantes.
  • Datos de línea de base para ambos grupos: Mediciones de resultados y covariables previas al programa, tanto para el grupo de tratamiento como para el de comparación.
  • Instrumentos idénticos o comparables: Las mismas herramientas de encuesta empleadas para ambos grupos en cada punto de recopilación de datos.
  • Pruebas de balance: Pruebas estadísticas que confirman la comparabilidad de los grupos de tratamiento y comparación en la línea de base, en función de las características observadas.
  • Verificación de los supuestos del diseño: Pruebas explícitas de los supuestos clave de identificación (tendencias paralelas, soporte común para PSM, pruebas de manipulación del umbral para RD).
  • Análisis de sensibilidad: Evaluar si la estimación del efecto del tratamiento varía bajo especificaciones de modelo alternativas.
  • Medidas adicionales invariantes en el tiempo: Variables de línea de base que no se espera que cambien, y que se incluyen para mejorar la calidad del emparejamiento.

Buenas prácticas en diseños cuasi-experimentales

Maximizar la comparabilidad utilizando instrumentos idénticos. Los datos de los grupos de tratamiento y comparación deben recopilarse con los mismos instrumentos de encuesta, simultáneamente, y por encuestadores idénticos (o con capacitación equivalente). Cualquier diferencia en la recopilación de datos puede contaminar la comparación.

Verificar y reportar el balance, no solo el emparejamiento. El PSM no concluye con el emparejamiento; es fundamental verificar si los grupos emparejados están realmente balanceados en variables clave y documentar los resultados. Las muestras emparejadas desbalanceadas sugieren que el modelo de emparejamiento requiere revisión.

Pre-especificar el análisis principal. Documentar el método de análisis previsto, las covariables y la especificación de los resultados antes de la recopilación de datos. Esto previene la selección de modelos post-hoc que podría inflar las tasas de falsos positivos.

Incluir variables invariantes en el tiempo en el emparejamiento. Incorporar variables estables a lo largo del tiempo (por ejemplo, propiedad de la tierra, etnia, composición del hogar en la línea de base) mejora la calidad del emparejamiento y reduce el sesgo.

Reportar las limitaciones del diseño con honestidad. Todo DCE implica supuestos que no pueden ser empíricamente verificados. Un informe de evaluación creíble debe enunciar estos supuestos con claridad y explicar por qué son razonables en el contexto dado.

Errores frecuentes en diseños cuasi-experimentales

Considerar el PSM como suficiente sin pruebas de balance. El emparejamiento por puntuación de propensión no garantiza el balance. Siempre se debe verificar el balance de covariables post-emparejamiento y re-emparejar si el balance es deficiente.

Ignorar el supuesto de tendencias paralelas en DiD. Las estimaciones de diferencia en diferencias son inválidas si los grupos de tratamiento y comparación presentaban tendencias diferentes antes del programa. Es crucial verificar las tendencias paralelas utilizando datos previos al programa, si están disponibles.

Utilizar un grupo de comparación geográficamente cercano sin controles de contagio (spillover). Si los hogares del grupo de comparación pueden observar o interactuar con los hogares de tratamiento, la contaminación sesga la estimación hacia cero.

Afirmar que un DCE es "tan bueno como un ECA". Los diseños cuasi-experimentales se basan en supuestos adicionales que los ECA no requieren. Es fundamental declarar claramente el diseño y sus supuestos, sin exagerar la certeza causal.

Minería de datos retrospectiva (data dredging). Utilizar conjuntos de datos existentes sin un plan de análisis pre-especificado genera oportunidades para la selección de modelos que pueden producir hallazgos de falsos positivos. Siempre que sea posible, pre-registrar el análisis.

Casos prácticos y ejemplos

Seguridad alimentaria, América Latina. Un programa financiado por el USDA en Honduras empleó el emparejamiento por puntuación de propensión para evaluar su impacto en las puntuaciones de seguridad alimentaria de los hogares. Los datos de línea de base incluyeron 40 variables sobre demografía del hogar, activos y prácticas agrícolas para 2,400 hogares de tratamiento y 2,400 hogares de comparación. Tras el emparejamiento, las diferencias medias estandarizadas para las 40 variables se situaron por debajo de 0.10, lo que indicó un buen balance. La estimación DiD al final del programa mostró una mejora de 0.6 desviaciones estándar en las puntuaciones de seguridad alimentaria entre los hogares de tratamiento, en comparación con los grupos de comparación emparejados.

Educación, África Oriental. Un programa de mejora escolar en Kenia aplicó la regresión con discontinuidad, basándose en las puntuaciones de pobreza del distrito que determinaban la elegibilidad para el programa. Se compararon las escuelas que obtuvieron una puntuación justo por debajo del umbral de elegibilidad (elegibles) con aquellas que se situaron justo por encima (no elegibles). El análisis de los datos de las puntuaciones de los exámenes nacionales reveló una mejora de 3.8 puntos porcentuales en las tasas de aprobación entre las escuelas elegibles, en comparación con las no elegibles en el umbral, sin evidencia de manipulación de las puntuaciones cerca de dicho umbral.

Salud, Asia Meridional. Un programa de salud comunitaria financiado por DFID en Bangladesh empleó un análisis de serie temporal interrumpida para las tasas mensuales de partos en centros de salud en 120 subdistritos de intervención, utilizando 60 subdistritos de comparación emparejados como serie de control. El modelo ITS estimó un aumento de 12 puntos porcentuales en las tasas de partos en centros de salud atribuible al programa, superando la tendencia preexistente, con un efecto sostenido durante los 24 meses posteriores a su introducción.

Comparación con otros diseños de evaluación

DiseñoAleatorizaciónContrafactualSupuesto clave
DCE (PSM)NingunaConstruido mediante emparejamientoTodos los factores de confusión observados
DCE (DiD)NingunaTendencias paralelasTendencia común en ausencia del programa
DCE (RD)NingunaDiscontinuidad en el umbralSin manipulación de puntuación
ECAAleatoriaGrupo de control directoIntegridad de la aleatorización
Análisis de ContribuciónNingunaNingunaHistoria causal plausible

Indicadores clave para diseños cuasi-experimentales

38 indicadores en los marcos de USAID, Banco Mundial, USDA y 3ie. Ejemplos destacados:

  • Diferencia media estandarizada en variables clave de línea de base entre los grupos de tratamiento y comparación (objetivo < 0.10).
  • Estimación del efecto del tratamiento mediante diferencia en diferencias, con un intervalo de confianza del 95%.
  • Porcentaje de soporte común (proporción del grupo de tratamiento con unidades de comparación emparejadas en el PSM).
  • Número de períodos previos al programa utilizados para verificar el supuesto de tendencias paralelas.

Herramientas de apoyo

  • Planificador de Evaluación: Para estructurar la recopilación de datos de línea de base y la selección del grupo de comparación.
  • Biblioteca de Indicadores: Para identificar medidas de resultados adecuadas para su evaluación.

Conceptos relacionados