¿Cuándo es preferible usar un RCT en lugar de un diseño cuasi-experimental?

Un RCT es ideal cuando la aleatorización es posible (por ejemplo, mediante implementación por fases o debido a recursos limitados), la intervención está estandarizada, el presupuesto lo permite (generalmente $100K-500K+) y la revisión ética aprueba la retención del programa para un grupo de control. Si alguna de estas condiciones no se cumple, un diseño cuasi-experimental es probablemente más adecuado y aun así puede proporcionar evidencia causal creíble.

¿Cuál es el diseño cuasi-experimental más común en la evaluación del desarrollo?

Diferencia en Diferencias (DID). Este método compara el cambio a lo largo del tiempo en las áreas donde se implementa el programa frente a las áreas de comparación. La mayoría de los programas de desarrollo recopilan datos de línea de base y línea final tanto en los sitios del programa como en los que no lo son, lo cual es precisamente lo que requiere DID. La suposición principal es que ambos grupos habrían seguido una tendencia similar en ausencia del programa.

RCT vs. diseño cuasi-experimental: ¿Cuál elegir para tu evaluación de impacto?

Factor	RCT	Cuasi-Experimental
Evidencia causal	Muy sólida (estándar de oro)	Moderada a sólida
Requiere aleatorización	Sí	No
Grupo de comparación	Control asignado aleatoriamente	Emparejado o de ocurrencia natural
Costo típico	$100K-500K+	$30K-150K
Plazo	2-5 años	1-3 años
Experiencia estadística	Alta	Alta
Mejor para	Intervenciones estandarizadas y simples	Programas donde la aleatorización no fue posible
Maneja la complejidad	Limitado	Mejor (diseños más flexibles)
Aceptación del donante	Universalmente aceptado	Ampliamente aceptado para evidencia de impacto

Cuándo un RCT es factible

Un RCT exige condiciones muy específicas. Si alguna de estas no se cumple, es crucial detenerse y considerar alternativas cuasi-experimentales.

Posibilidad de aleatorizar. El programa aún no ha llegado a toda la población objetivo. Una implementación por fases, una selección basada en lotería o una restricción de recursos pueden generar una oportunidad natural para aleatorizar quién recibe el programa primero.

La intervención es estandarizada. Todos los miembros del grupo de tratamiento reciben una intervención similar. Si el programa se adapta significativamente a cada sitio, un RCT mediría el promedio de múltiples tratamientos distintos, lo cual a menudo no resulta útil.

El tamaño de la muestra es adecuado. Los cálculos de poder estadístico te indicarán cuántas unidades (individuos, escuelas, aldeas) son necesarias. La mayoría de los ensayos aleatorios por conglomerados requieren más de 30 conglomerados por brazo. Si solo dispones de 8 distritos, un RCT no producirá resultados significativos. Consulta Cómo Elegir el Tamaño de la Muestra para más detalles sobre los cálculos.

Consideraciones éticas. Retener una intervención probada y vital de un grupo de control no es ético. Los diseños de implementación por fases, donde el grupo de control recibe el programa en una etapa posterior, abordan esta preocupación. Sin embargo, si la intervención debe llegar a todos de inmediato, la aleatorización queda descartada.

Disponibilidad presupuestaria. Los costos de evaluación por sí solos suelen oscilar entre $100K y $500K o más, sin incluir los costos de implementación del programa. Si el presupuesto total de tu programa es de $500K, destinar la mitad a la evaluación podría no ser una decisión sensata.

Cuándo un diseño cuasi-experimental es más adecuado

La mayoría de las evaluaciones de desarrollo se sitúan en este escenario. El programa ya ha comenzado, la aleatorización no fue planificada, pero existen datos de comparación. Esta es la situación más común.

El programa no fue aleatorizado desde el inicio. Este es el escenario más frecuente. El programa se dirigió a áreas específicas basándose en la necesidad, decisiones políticas o la capacidad del socio. No es posible revertir esa selección, pero sí se puede tener en cuenta estadísticamente.

Disponibilidad de un grupo de comparación natural. Esto puede incluir áreas no cubiertas por el programa, personas que eran elegibles pero no participaron, o comunidades en lista de espera. La comparación no necesita ser perfecta, pero sí plausible después de realizar los ajustes necesarios.

Recopilación de datos de línea de base. La mayoría de los diseños cuasi-experimentales requieren datos previos al programa. Si solo dispones de datos de línea final, tus opciones se reducirán significativamente.

Presupuesto moderado. Un rango de entre $30K y $150K suele cubrir la mayoría de las evaluaciones cuasi-experimentales, incluyendo la recopilación de datos primarios si es necesaria.

Los cuatro enfoques principales de QED

Diferencia en diferencias (DID)

Compara el cambio a lo largo del tiempo en las áreas del programa frente a las áreas de comparación. Por ejemplo, si el retraso en el crecimiento disminuyó 5 puntos porcentuales en las áreas del programa, pero solo 1 punto en las áreas de comparación, el efecto estimado del programa es de 4 puntos.

Lo que necesitas: Datos de línea de base y línea final para ambos grupos. Se requieren al menos dos puntos en el tiempo, aunque más es siempre mejor.

Supuesto clave: Ambos grupos habrían seguido la misma tendencia en ausencia del programa (hipótesis de tendencias paralelas). Verifica esto comparando las tendencias previas al programa si dispones de los datos.

Cuándo funciona mejor: Programas dirigidos a áreas geográficas, donde existen datos rutinarios tanto en los sitios del programa como en los que no lo son.

Emparejamiento por puntaje de propensión (PSM)

Empareja a cada participante con un no participante que sea estadísticamente similar en características observables (edad, ingresos, ubicación, educación). Luego, compara los resultados entre los pares emparejados.

Lo que necesitas: Datos ricos sobre las características que predicen la participación en el programa. Cuantas más variables, mejor será el emparejamiento.

Supuesto clave: Todos los factores que determinan la participación en el programa están capturados en tus datos. Si factores no observados (como la motivación o las conexiones políticas) influyen en la participación, el PSM no podrá corregir ese sesgo.

Cuándo funciona mejor: Programas a nivel individual (capacitación, transferencias monetarias) donde se tienen datos de encuestas tanto de participantes como de no participantes.

Discontinuidad en la regresión (RD)

Cuando la elegibilidad depende de un puntaje o umbral (por ejemplo, ingresos por debajo de un límite, puntajes de examen por encima de una línea), se comparan las personas que están justo por encima y justo por debajo de dicho umbral. Aquellos cercanos al umbral son esencialmente similares, creando un experimento natural.

Lo que necesitas: Un umbral de elegibilidad claro y datos sobre la variable de ejecución (el puntaje que determina la elegibilidad).

Limitación clave: Los resultados solo se aplican a las personas cercanas al umbral, no a toda la población. Si tu programa se dirige al 20% más pobre, la RD te informará sobre el efecto para las personas alrededor del percentil 20, no para el 5% más pobre.

Cuándo funciona mejor: Programas dirigidos con elegibilidad basada en puntajes. Verifica si tu programa utiliza algún tipo de clasificación o umbral antes de optar por otros diseños.

Series de tiempo interrumpidas (ITS)

Analiza las tendencias en un resultado antes y después del inicio del programa, utilizando múltiples puntos de datos previos a la intervención para establecer cómo habría sido la tendencia sin el programa.

Lo que necesitas: Al menos 8-10 puntos de datos antes de la intervención. Esto puede incluir datos mensuales de centros de salud, estadísticas educativas trimestrales o rondas de encuestas anuales.

Supuesto clave: Ningún otro factor relevante cambió al mismo tiempo que el programa que pudiera explicar el cambio en la tendencia. Si una nueva política nacional se lanzó el mismo mes, el ITS no podrá separar los efectos.

Cuándo funciona mejor: Programas con datos de monitoreo rutinario sólidos pero sin un grupo de comparación. Las intervenciones en sistemas de salud son una aplicación común, ya que los datos de las instalaciones suelen tener series de tiempo extensas.

Comparación de costos

Componente	RCT	Cuasi-Experimental
Diseño y protocolo	$15K-40K	$8K-20K
Recopilación de datos de línea de base	$30K-150K	$15K-60K (a menudo utiliza datos existentes)
Recopilación de datos de línea final	$30K-150K	$15K-60K
Análisis	$15K-40K	$10K-30K
Línea media (si se incluye)	$20K-80K	$10K-40K
Revisión ética/IRB	$2K-10K	$2K-5K
Rango total	$100K-500K+	$30K-150K

El principal factor de costo es la recopilación de datos primarios. Si un diseño cuasi-experimental puede utilizar datos administrativos o de monitoreo rutinario existentes, los costos se reducen drásticamente. Un DID que utilice registros de centros de salud podría costar entre $30K y $50K en total. La misma pregunta, si se responde con un RCT que requiera encuestas de hogares, podría superar los $200K.

Errores comunes en cada uno

Errores comunes en rCTs

Contaminación. El grupo de control obtiene acceso al programa (o a algo similar) de otra fuente. Esto anula el contraste entre el tratamiento y el control.

Deserción. Las personas abandonan el estudio a diferentes tasas entre los grupos de tratamiento y control. La muestra restante deja de ser comparable.

Poder estadístico insuficiente. La muestra era demasiado pequeña para detectar el efecto esperado. El estudio concluye con "ningún efecto significativo", pero el problema real es la incapacidad de detectar un efecto, incluso si existía.

Efectos hawthorne. Las personas modifican su comportamiento porque saben que están siendo estudiadas, no debido al programa en sí.

Errores comunes en diseños cuasi-experimentales (QED)

Grupo de comparación deficiente. El grupo de comparación difiere del grupo del programa de maneras que tu modelo estadístico no logra capturar. Los resultados pueden parecer un efecto del programa, pero en realidad son un efecto de selección.

Violación de la hipótesis de tendencias paralelas. En DID, si el grupo de comparación ya seguía una trayectoria diferente antes del programa, la estimación del efecto estará sesgada. Siempre grafica las tendencias previas al programa para ambos grupos. Si divergen, DID no es el diseño adecuado.

Sobreajuste en PSM. Emparejar demasiadas variables con una muestra pequeña puede generar emparejamientos que parecen estadísticamente válidos, pero carecen de sentido práctico.

Eventos confusores en ITS. Un cambio de política, un shock económico u otro programa se lanza al mismo tiempo que tu intervención. El ITS no puede separar los efectos de estos eventos.

Guía de decisión

Responde a estas preguntas en orden para orientar tu elección.

1. ¿Puedes aleatorizar?

Sí, ética y prácticamente: Considera un RCT. Pero verifica que tu tamaño de muestra sea suficiente y que tu presupuesto lo permita.
No: Considera las opciones cuasi-experimentales.

2. ¿Tienes datos de línea de base?

Sí, tanto para las áreas del programa como para las de comparación: DID suele ser la opción más robusta.
Sí, con un umbral de elegibilidad basado en puntajes: Verifica si la discontinuidad en la regresión es aplicable.
Sí, con muchos puntos de tiempo previos al programa, pero sin grupo de comparación: Considera ITS.
No hay datos de línea de base: PSM solo con datos de línea final (un enfoque más débil), o cambia a enfoques basados en la teoría.

3. ¿Cuál es tu presupuesto?

Más de $100K y la pregunta exige atribución causal: RCT o un QED sólido con recopilación de datos primarios.
Entre $30K y $100K: QED utilizando datos existentes siempre que sea posible. DID con datos rutinarios suele ser la mejor opción en términos de relación calidad-precio.
Menos de $30K: No intentes ninguno de los dos. Utiliza el análisis de contribución u otros enfoques basados en la teoría. Consulta Cómo Elegir la Metodología de Evaluación.

4. ¿Qué tan estandarizado está el programa?

Misma intervención en todas partes: Ambos diseños son aplicables.
Varía significativamente por sitio: Los QEDs gestionan mejor la variación. Un RCT mediría el efecto promedio entre las variaciones, lo cual puede no ser útil para ningún sitio específico.

Consulta la guía de evaluación para estructurar tu diseño una vez que hayas tomado la decisión, o el Selector de Métodos para explorar alternativas si ninguna de estas encaja.

Errores comunes

Error 1: confundir un diseño cuasi-experimental con un "RCT simplificado". El QED no es una versión más débil de un RCT. Es una familia diferente de diseños, adecuada para distintas condiciones. Un DID bien ejecutado puede producir evidencia altamente creíble. Por el contrario, un RCT mal ejecutado, con contaminación y deserción, puede generar resultados inútiles.

Error 2: implementar DID sin verificar la hipótesis de tendencias paralelas. DID requiere que los grupos de tratamiento y comparación siguieran la misma trayectoria antes del programa. Si no puedes demostrar esto con datos, tu estimación de DID carecerá de fiabilidad. Grafica las tendencias previas al programa para ambos grupos. Si divergen, DID no es el diseño adecuado.

Error 3: elegir un RCT por defecto ante la solicitud de "evidencia rigurosa" por parte del donante. La evidencia rigurosa no es exclusiva de los RCTs. La mayoría de los donantes aceptan evaluaciones cuasi-experimentales bien diseñadas. Pregunta al donante qué necesitan realmente. La "evidencia creíble de impacto" puede obtenerse mediante DID o PSM, no únicamente a través de la aleatorización.

Error 4: ignorar el efecto de diseño en los ensayos aleatorios por conglomerados. Si aleatorizas a nivel de aldea o escuela, pero mides individuos, necesitarás muchas más unidades de las que sugeriría la aleatorización a nivel individual. Una muestra de 200 personas podría requerir más de 40 conglomerados. Consulta Cómo Elegir el Tamaño de la Muestra.

Error 5: realizar un QED con un grupo de comparación deficiente y calificarlo de riguroso. Un grupo de comparación que difiere sistemáticamente del grupo de tratamiento de maneras que tu modelo no logra capturar es peor que no tener ningún grupo de comparación. Esto resultará en una estimación precisa, pero sesgada. Si no es posible establecer una comparación creíble, es preferible recurrir a métodos basados en la teoría en lugar de implementar un QED deficiente.