Cómo seleccionar el diseño de evaluación correcto
La mayoría de los errores en el diseño de una evaluación surgen al seleccionar un método antes de definir claramente lo que se necesita saber. Afirmar "Queremos hacer un ECA" no es un punto de partida adecuado. En cambio, "Necesitamos saber si nuestro programa de capacitación redujo el retraso en el crecimiento" sí lo es. El método debe derivarse de la pregunta, el contexto y las limitaciones existentes. Asegúrese de tener estos elementos claros desde el inicio.
Antes de consultar un manual de métodos, responda estas tres preguntas en orden.
Pregunta 1: ¿Qué necesita saber?
La pregunta central de su evaluación es el pilar de todo el diseño. Si busca probar la causalidad ("¿Este programa provocó el cambio?"), necesitará un contrafactual. Si su objetivo es comprender la contribución ("¿Este programa fue un factor clave?"), los diseños basados en la teoría son los más adecuados. Si lo que busca es entender la implementación ("¿Se ejecutó el programa según lo previsto?"), una evaluación de proceso será suficiente. Evite sobredimensionar el diseño para la pregunta real que desea responder.
Pregunta 2: ¿Es factible un contrafactual?
Un contrafactual responde a la pregunta: "¿Qué habría ocurrido en ausencia del programa?". Si es posible construir uno, ya sea mediante aleatorización o identificando un grupo de comparación natural, se abren las puertas a los diseños experimentales y cuasi-experimentales. En caso contrario, los enfoques basados en la teoría serán su mejor opción. Muchos programas, especialmente aquellos que ya están implementados a gran escala, no pueden establecer un contrafactual creíble. Esto no es un problema; simplemente implica que deberá recurrir a una familia de diseños diferente.
Pregunta 3: ¿Cuáles son sus limitaciones?
El presupuesto, el cronograma, las consideraciones éticas, las dinámicas políticas, la disponibilidad de datos y los requisitos del donante son factores que determinan la viabilidad de un diseño. Por ejemplo, un ECA de $300K y 3 años no es viable para un programa de $500K y 2 años. Un diseño de diferencias en diferencias, por su parte, exige datos de línea de base que quizás no se hayan recopilado. Sea transparente con las limitaciones desde el principio. Un diseño modesto y bien ejecutado siempre será superior a uno ambicioso y mal implementado.
Las tres familias de diseño
Experimental (ECA)
En qué consiste: Consiste en asignar aleatoriamente a individuos, comunidades, escuelas o instalaciones para que reciban o no el programa. Posteriormente, se comparan los resultados entre ambos grupos. Cualquier diferencia observada es atribuible al programa, ya que la aleatorización garantiza que los grupos sean equivalentes al inicio.
La mayoría de las evaluaciones de ONG no requieren un ECA. Esta no es una afirmación controvertida, sino que refleja la realidad de que los ECA exigen condiciones que la mayoría de los programas no pueden cumplir: implementación por fases, tamaños de muestra grandes, presupuestos sustanciales e intervenciones estables. Cuando estas condiciones se dan, un ECA es el estándar de oro para la atribución causal. En su ausencia, forzar un ECA resulta en una metodología deficiente y un alto costo.
Cuándo utilizarlo:
- El programa se está implementando en fases (aleatorizar quién lo recibe primero)
- Los recursos son limitados y no pueden llegar a todos a la vez (racionamiento natural)
- El donante requiere evidencia de impacto rigurosa (USAID, DFID/FCDO, 3IE)
- El programa es relativamente simple y estandarizado
- El presupuesto lo permite (más de $100K-500K solo para la evaluación)
- La revisión ética aprueba la retención del programa al grupo de control
Cuándo no es adecuado:
- El programa ya cubre a toda la población objetivo (no es posible un grupo de control)
- Preocupaciones éticas sobre la retención de una intervención beneficiosa
- El programa es altamente adaptativo (los ECA requieren un tratamiento estable)
- El tamaño de la muestra es demasiado pequeño para el poder estadístico
- La pregunta es "por qué" y no "cuánto" (los ECA le dicen el impacto, no los mecanismos)
| Fortalezas | Limitaciones |
|---|---|
| Evidencia causal más sólida | Caro y consume mucho tiempo |
| Resultados claros y creíbles | Requiere aleatorización (no siempre ética/factible) |
| Ampliamente aceptado por donantes y formuladores de políticas | Le dice "qué" no "por qué" |
| Requiere intervención estable y muestras grandes |
Cuasi-Experimental
En qué consiste: Emplea un grupo de comparación, pero sin aleatorización. En su lugar, se utilizan técnicas estadísticas para explicar las diferencias entre los grupos. Estos diseños se posicionan entre el rigor de un ECA y la flexibilidad de los enfoques no experimentales. Son efectivos cuando se dispone de un grupo de comparación natural y datos de calidad, pero la aleatorización no fue posible o ya no es viable.
Enfoques habituales:
Diferencias en diferencias (DID): Compara la evolución a lo largo del tiempo en el grupo de tratamiento con la evolución en un grupo de comparación. Requiere datos previos y posteriores al programa para ambos grupos. Se basa en el supuesto de que ambos grupos habrían seguido una tendencia similar sin la intervención (supuesto de tendencias paralelas). Este es, probablemente, el diseño cuasi-experimental más frecuente en la evaluación del desarrollo, dado que muchos programas recopilan datos de línea de base y finales tanto en zonas de intervención como en zonas de no intervención.
Emparejamiento por puntuación de propensión (PSM): Consiste en emparejar a cada participante del programa con un no participante que sea estadísticamente similar en características observables. Luego, se comparan los resultados entre los pares emparejados. Requiere datos de calidad sobre las características que predicen la participación. El PSM aborda el sesgo de selección en las variables observables, pero no puede resolver las diferencias no observadas entre los grupos.
Regresión de discontinuidad (RD): Cuando la elegibilidad del programa se define por un punto de corte (por ejemplo, ingresos por debajo de $2/día), este diseño compara a las personas que se encuentran justo por encima y justo por debajo de dicho umbral. Ofrece una evidencia causal muy sólida para el grupo cercano al punto de corte. Su limitación radica en que solo informa sobre el efecto en el umbral, no para la población en su totalidad. Si su programa emplea algún tipo de focalización basada en puntuaciones, considere si la RD es una opción antes de optar por otros diseños.
Series de tiempo interrumpidas (ITS): Analiza las tendencias de un indicador antes y después del inicio del programa, utilizando múltiples puntos de datos previos a la intervención para establecer la tendencia contrafactual. Requiere al menos 8-10 puntos de datos pre-intervención. Es eficaz cuando se dispone de datos robustos de monitoreo rutinario, pero no de un grupo de comparación.
Cuándo utilizar diseños cuasi-experimentales:
- Existe un grupo de comparación, pero la aleatorización no es posible
- El programa no fue aleatorizado al inicio, pero hay datos de comparación disponibles
- El presupuesto es moderado (entre $30K y $150K para la evaluación)
- Necesita evidencia causal, pero un ECA no es factible
| Fortalezas | Limitaciones |
|---|---|
| Más sólidos que los diseños no experimentales | Afirmaciones causales más débiles que los ECA |
| Más factibles y asequibles que los ECA | Requiere un buen grupo de comparación |
| Múltiples opciones de diseño para diferentes contextos | Se necesita experiencia estadística |
| Es posible que los supuestos no se cumplan (tendencias paralelas, sin factores de confusión no observados) |
No experimental (Basado en la Teoría y cualitativo)
En qué consiste: No se emplea un grupo de comparación. En su lugar, estos diseños se basan en la Teoría del Cambio del programa, evidencia cualitativa y múltiples fuentes de datos para evaluar si el programa contribuyó al cambio y de qué manera. No deben descartarse como "débiles". Para programas complejos, adaptativos o sistémicos, a menudo generan evidencia más útil y accionable que un diseño cuasi-experimental mal aplicado.
Enfoques habituales:
Análisis de contribución: Construye una "historia de contribución" que traza la cadena causal desde las actividades hasta los resultados, contrastando la Teoría del Cambio del programa con la evidencia disponible. No busca probar la causalidad, sino construir un argumento creíble y basado en evidencia sobre la contribución del programa. Este es el enfoque más utilizado en la evaluación no experimental dentro del ámbito del desarrollo.
Rastreo de procesos: Examina sistemáticamente la evidencia de cada eslabón de la cadena causal, buscando "pistolas humeantes" (evidencia que respalda firmemente el eslabón) y "aros" (pruebas que el eslabón debe superar). Este es un método cualitativo riguroso para la inferencia causal, proveniente de la ciencia política. Es más efectivo cuando se pueden identificar mecanismos causales específicos y contrastarlos con evidencia documental y de entrevistas.
Cambio Más significativo (MSC): Recopila historias de cambio de los actores clave, las cuales son posteriormente seleccionadas por paneles como las "más significativas". Es un enfoque participativo que captura cambios inesperados y es muy útil para programas complejos donde los indicadores predefinidos no logran capturar lo más relevante.
Evaluación realista: Se pregunta "¿Qué funciona, para quién, en qué circunstancias y por qué?". Evalúa las configuraciones Contexto-Mecanismo-Resultado (CMO) en lugar del impacto general del programa. Es particularmente útil cuando se observa que un programa funciona en algunos contextos pero no en otros, y se busca comprender las razones.
Cuándo utilizar enfoques no experimentales:
- No existe o no es factible un grupo de comparación
- El programa es complejo, adaptativo o sistémico
- Necesita comprender los mecanismos, no solo los resultados
- El presupuesto es limitado (entre $15K y $60K para la evaluación)
- La pregunta es "cómo y por qué" en lugar de "cuánto"
| Fortalezas | Limitaciones |
|---|---|
| Factible para cualquier tipo de programa | No puede probar la causalidad |
| Captura la complejidad y el contexto | Los hallazgos son menos generalizables |
| Más asequible | Requiere evaluadores cualificados |
| Explica mecanismos, no solo resultados | Algunos donantes no lo aceptan como evidencia suficiente |
Combinación de métodos
En la práctica, la mayoría de las evaluaciones combinan diferentes métodos. Una evaluación de impacto cuasi-experimental, por ejemplo, suele incluir componentes cualitativos para explicar el porqué de los resultados numéricos. Un análisis de contribución se apoya tanto en datos cuantitativos rutinarios como en entrevistas cualitativas. Considerar la elección entre "cuantitativo vs. cualitativo" como una decisión binaria es un error. Es fundamental reflexionar sobre la evidencia que necesita para cada pregunta de evaluación y seleccionar el método que mejor la genere. Para una comparación más detallada, consulte cualitativos vs. cuantitativos vs. métodos mixtos.
Comparación de diseños de evaluación
| Factor | Experimental (ECA) | Cuasi-Experimental | No Experimental |
|---|---|---|---|
| Evidencia causal | Muy fuerte | Moderada-fuerte | Moderada (contribución, no atribución) |
| Factibilidad | Baja (muchas condiciones necesarias) | Media | Alta |
| Costo típico | Más de $100K-500K | $30K-150K | $15K-60K |
| Cronograma | 2-5 años | 1-3 años | 3-12 meses |
| Experiencia estadística | Alta | Alta | Moderada |
| Más adecuado para | Intervenciones simples y estandarizadas | Programas con grupos de comparación naturales | Programas complejos, adaptativos, sistémicos |
| Aceptación por USAID | Preferido para impacto | Aceptado | Aceptado para preguntas no relacionadas con el impacto |
| Aceptación por la UE | Aceptado | Aceptado | Común para la mayoría de las evaluaciones |
| Aceptación por FCDO | Esperado para programas grandes | Aceptado | Aceptado con una fuerte Teoría del Cambio |
Ejemplo práctico: elección de un diseño bajo restricciones reales
Un programa de nutrición que opera en 12 distritos busca determinar si su capacitación a trabajadores de salud comunitarios (TSC) logró reducir el retraso en el crecimiento infantil. El programa abarca los 12 distritos, sin un área de comparación no intervenida. El presupuesto para la evaluación es de $40,000 y el cronograma es de 4 meses.
Siga la siguiente secuencia de decisión:
¿Puede aleatorizar? No. El programa ya está implementado en todas las áreas. No es posible crear un grupo de control.
¿Hay un grupo de comparación natural disponible? No. Todos los distritos recibieron la capacitación. Los distritos vecinos presentan sistemas de salud y características demográficas diferentes, lo que los convierte en comparadores inadecuados.
¿Existen datos de línea de base para un diseño cuasi-experimental? El programa recopiló datos rutinarios de los centros de salud (tasas de retraso en el crecimiento, registros de visitas de TSC) antes y después de la capacitación, pero únicamente en los distritos donde se implementó. Sin un grupo de comparación, el diseño de Diferencias en Diferencias (DID) queda descartado.
¿Qué se ajusta al presupuesto y al cronograma? Un presupuesto de $40,000 y un cronograma de 4 meses descartan cualquier opción que requiera la recopilación de datos primarios a gran escala mediante encuestas. Sin embargo, los datos rutinarios de los centros de salud ya están disponibles.
Recomendación: Análisis de contribución utilizando los datos rutinarios existentes de los centros de salud (tendencias de retraso en el crecimiento, frecuencia de visitas de TSC, tasas de referencia), complementado con entrevistas a informantes clave, incluyendo trabajadores de salud y funcionarios de salud del distrito. Se debe mapear la Teoría del Cambio desde la capacitación de los TSC hasta la reducción del retraso en el crecimiento, y luego contrastar cada eslabón con la evidencia disponible. Si las tasas de retraso en el crecimiento mejoraron tras la capacitación, la frecuencia de las visitas de los TSC aumentó, y los trabajadores de salud describen prácticas específicas que cambiaron debido a la capacitación, se podrá construir una historia de contribución creíble. Este enfoque se ajusta al presupuesto, utiliza datos existentes y responde a la pregunta "¿contribuyó la capacitación a la mejora?" sin requerir un grupo de comparación. Para estructurar el diseño, consulte la guía de evaluación, o el Selector de Métodos para explorar alternativas.
Errores comunes
Error 1: elegir el método antes de definir la pregunta. Afirmar "Queremos hacer un ECA" es un planteamiento equivocado. Comience por preguntarse: "¿Qué necesitamos saber y qué diseño responde mejor a esa pregunta dadas nuestras limitaciones?".
Error 2: asumir que un ECA siempre es la mejor opción. Un ECA es el diseño más sólido para la atribución, pero responde a una pregunta muy específica (¿cambió el resultado promedio?) y omite el contexto, los mecanismos y la variación. Para programas complejos, una evaluación bien diseñada de métodos mixtos a menudo produce evidencia más útil.
Error 3: no contar con grupo de comparación ni con teoría. Si no dispone de un grupo de comparación, necesitará un enfoque sólido basado en la teoría (análisis de contribución, rastreo de procesos). Limitarse a medir antes y después sin un grupo de comparación o una forma sistemática de contrastar su Teoría del Cambio produce evidencia muy débil.
Error 4: evaluaciones subfinanciadas. Intentar ejecutar un diseño cuasi-experimental con un presupuesto de $10K suele generar resultados inutilizables. Ajuste la ambición de su diseño a su presupuesto. Un análisis de contribución bien ejecutado por $25K produce mejor evidencia que un DID mal ejecutado por $25K.
Error 5: ignorar las consideraciones éticas. Retener una intervención comprobada del grupo de control plantea problemas éticos. Los diseños de implementación diferida (todos reciben el programa eventualmente, pero el orden se aleatoriza) abordan esta cuestión en los ECA. Para programas en curso, los diseños tipo "pipeline" (que comparan a quienes recibieron el programa primero con aquellos que aún están en lista de espera) representan una alternativa ética.
Error 6: tratar el diseño como inamovible. Su diseño de evaluación debe adaptarse si las circunstancias cambian. Si un grupo de comparación previsto se contamina (recibe un programa similar de otra organización), deberá ajustar el enfoque. Incorpore flexibilidad en su plan de evaluación desde el inicio.
Guía rápida de decisión
Siga esta secuencia. Cada pregunta delimita las opciones.
1. ¿Necesita probar que su programa causó el cambio (atribución)?
- Sí, y la aleatorización es factible: ECA
- Sí, pero la aleatorización no es factible: Cuasi-Experimental (DID, PSM, RD o ITS, según la disponibilidad de datos)
- No, necesita demostrar que su programa contribuyó: Análisis de contribución o Rastreo de procesos
2. ¿Hay un grupo de comparación disponible?
- Sí, y está bien emparejado: Cuasi-Experimental
- Existe un punto de corte natural (umbral de elegibilidad): Regresión de discontinuidad
- No hay grupo de comparación: Enfoques basados en la teoría (análisis de contribución, evaluación realista, MSC)
3. ¿Cuál es su presupuesto para la evaluación?
- Más de $100K: Todas las opciones están disponibles. Considere si la pregunta justifica el costo de un ECA.
- Entre $30K y $100K: Cuasi-experimental o basado en la teoría. El DID con datos existentes suele ser el punto óptimo.
- Menos de $30K: Basado en la teoría, MSC o evaluación de proceso. No intente diseños cuasi-experimentales con este presupuesto.
4. ¿Qué tan complejo es el programa?
- Simple y estandarizado: los enfoques experimentales o cuasi-experimentales funcionan bien.
- Complejo, adaptativo, de múltiples componentes: enfoques basados en la teoría, evaluación realista o evaluación del desarrollo. Estos diseños manejan mejor la complejidad porque no requieren un "tratamiento" único y estable.
Para profundizar en la comparación entre métodos cuantitativos y cualitativos, consulte cualitativos vs. cuantitativos vs. métodos mixtos.