¿Cómo elijo la metodología de evaluación adecuada?

Comience con sus preguntas de evaluación, no con los métodos. Pregunte: (1) ¿Qué necesito saber? (2) ¿Necesito probar la causalidad o comprender la contribución? (3) ¿Hay un grupo de comparación disponible? (4) ¿Cuál es mi presupuesto y cronograma? (5) ¿Qué requiere mi donante? Estas preguntas ayudan a delimitar las opciones. Si necesita atribución causal con alta confianza, necesitará diseños experimentales o cuasi-experimentales. Si necesita comprender cómo y por qué ocurrió el cambio, los enfoques basados en la teoría y cualitativos son más adecuados.

¿Siempre necesito un ensayo controlado aleatorizado para la evaluación de impacto?

No. Los ECA son el diseño más sólido para probar la causalidad, pero no siempre son factibles o apropiados. Requieren aleatorización (a veces ética o prácticamente imposible), muestras grandes, presupuestos significativos (más de $100K-500K) y plazos largos. Muchos programas logran evidencia de impacto rigurosa a través de diseños cuasi-experimentales (diferencias en diferencias, emparejamiento por puntuación de propensión) o enfoques basados en la teoría (análisis de contribución, rastreo de procesos) a una fracción del costo.

¿Cuál es la diferencia entre atribución y contribución en la evaluación?

Atribución significa probar que su programa causó el cambio observado (requiere un contrafactual: qué habría sucedido sin el programa). Contribución significa construir un caso creíble de que su programa contribuyó al cambio observado junto con otros factores. La atribución requiere diseños experimentales o cuasi-experimentales sólidos. La contribución puede demostrarse a través de enfoques basados en la teoría como el análisis de contribución o el rastreo de procesos, que son menos costosos y más apropiados para programas complejos.

Cómo seleccionar la metodología de evaluación adecuada

Cómo seleccionar el diseño de evaluación correcto

La mayoría de los errores en el diseño de una evaluación surgen al seleccionar un método antes de definir claramente lo que se necesita saber. Afirmar "Queremos hacer un ECA" no es un punto de partida adecuado. En cambio, "Necesitamos saber si nuestro programa de capacitación redujo el retraso en el crecimiento" sí lo es. El método debe derivarse de la pregunta, el contexto y las limitaciones existentes. Asegúrese de tener estos elementos claros desde el inicio.

Antes de consultar un manual de métodos, responda estas tres preguntas en orden.

Pregunta 1: ¿Qué necesita saber?

La pregunta central de su evaluación es el pilar de todo el diseño. Si busca probar la causalidad ("¿Este programa provocó el cambio?"), necesitará un contrafactual. Si su objetivo es comprender la contribución ("¿Este programa fue un factor clave?"), los diseños basados en la teoría son los más adecuados. Si lo que busca es entender la implementación ("¿Se ejecutó el programa según lo previsto?"), una evaluación de proceso será suficiente. Evite sobredimensionar el diseño para la pregunta real que desea responder.

Pregunta 2: ¿Es factible un contrafactual?

Un contrafactual responde a la pregunta: "¿Qué habría ocurrido en ausencia del programa?". Si es posible construir uno, ya sea mediante aleatorización o identificando un grupo de comparación natural, se abren las puertas a los diseños experimentales y cuasi-experimentales. En caso contrario, los enfoques basados en la teoría serán su mejor opción. Muchos programas, especialmente aquellos que ya están implementados a gran escala, no pueden establecer un contrafactual creíble. Esto no es un problema; simplemente implica que deberá recurrir a una familia de diseños diferente.

Pregunta 3: ¿Cuáles son sus limitaciones?

El presupuesto, el cronograma, las consideraciones éticas, las dinámicas políticas, la disponibilidad de datos y los requisitos del donante son factores que determinan la viabilidad de un diseño. Por ejemplo, un ECA de $300K y 3 años no es viable para un programa de $500K y 2 años. Un diseño de diferencias en diferencias, por su parte, exige datos de línea de base que quizás no se hayan recopilado. Sea transparente con las limitaciones desde el principio. Un diseño modesto y bien ejecutado siempre será superior a uno ambicioso y mal implementado.

Las tres familias de diseño

Experimental (ECA)

En qué consiste: Consiste en asignar aleatoriamente a individuos, comunidades, escuelas o instalaciones para que reciban o no el programa. Posteriormente, se comparan los resultados entre ambos grupos. Cualquier diferencia observada es atribuible al programa, ya que la aleatorización garantiza que los grupos sean equivalentes al inicio.

La mayoría de las evaluaciones de ONG no requieren un ECA. Esta no es una afirmación controvertida, sino que refleja la realidad de que los ECA exigen condiciones que la mayoría de los programas no pueden cumplir: implementación por fases, tamaños de muestra grandes, presupuestos sustanciales e intervenciones estables. Cuando estas condiciones se dan, un ECA es el estándar de oro para la atribución causal. En su ausencia, forzar un ECA resulta en una metodología deficiente y un alto costo.

Cuándo utilizarlo:

El programa se está implementando en fases (aleatorizar quién lo recibe primero)
Los recursos son limitados y no pueden llegar a todos a la vez (racionamiento natural)
El donante requiere evidencia de impacto rigurosa (USAID, DFID/FCDO, 3IE)
El programa es relativamente simple y estandarizado
El presupuesto lo permite (más de $100K-500K solo para la evaluación)
La revisión ética aprueba la retención del programa al grupo de control

Cuándo no es adecuado:

El programa ya cubre a toda la población objetivo (no es posible un grupo de control)
Preocupaciones éticas sobre la retención de una intervención beneficiosa
El programa es altamente adaptativo (los ECA requieren un tratamiento estable)
El tamaño de la muestra es demasiado pequeño para el poder estadístico
La pregunta es "por qué" y no "cuánto" (los ECA le dicen el impacto, no los mecanismos)

Fortalezas	Limitaciones
Evidencia causal más sólida	Caro y consume mucho tiempo
Resultados claros y creíbles	Requiere aleatorización (no siempre ética/factible)
Ampliamente aceptado por donantes y formuladores de políticas	Le dice "qué" no "por qué"
	Requiere intervención estable y muestras grandes

Cuasi-Experimental

En qué consiste: Emplea un grupo de comparación, pero sin aleatorización. En su lugar, se utilizan técnicas estadísticas para explicar las diferencias entre los grupos. Estos diseños se posicionan entre el rigor de un ECA y la flexibilidad de los enfoques no experimentales. Son efectivos cuando se dispone de un grupo de comparación natural y datos de calidad, pero la aleatorización no fue posible o ya no es viable.

Enfoques habituales:

Diferencias en diferencias (DID): Compara la evolución a lo largo del tiempo en el grupo de tratamiento con la evolución en un grupo de comparación. Requiere datos previos y posteriores al programa para ambos grupos. Se basa en el supuesto de que ambos grupos habrían seguido una tendencia similar sin la intervención (supuesto de tendencias paralelas). Este es, probablemente, el diseño cuasi-experimental más frecuente en la evaluación del desarrollo, dado que muchos programas recopilan datos de línea de base y finales tanto en zonas de intervención como en zonas de no intervención.

Emparejamiento por puntuación de propensión (PSM): Consiste en emparejar a cada participante del programa con un no participante que sea estadísticamente similar en características observables. Luego, se comparan los resultados entre los pares emparejados. Requiere datos de calidad sobre las características que predicen la participación. El PSM aborda el sesgo de selección en las variables observables, pero no puede resolver las diferencias no observadas entre los grupos.

Regresión de discontinuidad (RD): Cuando la elegibilidad del programa se define por un punto de corte (por ejemplo, ingresos por debajo de $2/día), este diseño compara a las personas que se encuentran justo por encima y justo por debajo de dicho umbral. Ofrece una evidencia causal muy sólida para el grupo cercano al punto de corte. Su limitación radica en que solo informa sobre el efecto en el umbral, no para la población en su totalidad. Si su programa emplea algún tipo de focalización basada en puntuaciones, considere si la RD es una opción antes de optar por otros diseños.

Series de tiempo interrumpidas (ITS): Analiza las tendencias de un indicador antes y después del inicio del programa, utilizando múltiples puntos de datos previos a la intervención para establecer la tendencia contrafactual. Requiere al menos 8-10 puntos de datos pre-intervención. Es eficaz cuando se dispone de datos robustos de monitoreo rutinario, pero no de un grupo de comparación.

Cuándo utilizar diseños cuasi-experimentales:

Existe un grupo de comparación, pero la aleatorización no es posible
El programa no fue aleatorizado al inicio, pero hay datos de comparación disponibles
El presupuesto es moderado (entre $30K y $150K para la evaluación)
Necesita evidencia causal, pero un ECA no es factible

Fortalezas	Limitaciones
Más sólidos que los diseños no experimentales	Afirmaciones causales más débiles que los ECA
Más factibles y asequibles que los ECA	Requiere un buen grupo de comparación
Múltiples opciones de diseño para diferentes contextos	Se necesita experiencia estadística
	Es posible que los supuestos no se cumplan (tendencias paralelas, sin factores de confusión no observados)

No experimental (Basado en la Teoría y cualitativo)

En qué consiste: No se emplea un grupo de comparación. En su lugar, estos diseños se basan en la Teoría del Cambio del programa, evidencia cualitativa y múltiples fuentes de datos para evaluar si el programa contribuyó al cambio y de qué manera. No deben descartarse como "débiles". Para programas complejos, adaptativos o sistémicos, a menudo generan evidencia más útil y accionable que un diseño cuasi-experimental mal aplicado.

Enfoques habituales:

Análisis de contribución: Construye una "historia de contribución" que traza la cadena causal desde las actividades hasta los resultados, contrastando la Teoría del Cambio del programa con la evidencia disponible. No busca probar la causalidad, sino construir un argumento creíble y basado en evidencia sobre la contribución del programa. Este es el enfoque más utilizado en la evaluación no experimental dentro del ámbito del desarrollo.

Rastreo de procesos: Examina sistemáticamente la evidencia de cada eslabón de la cadena causal, buscando "pistolas humeantes" (evidencia que respalda firmemente el eslabón) y "aros" (pruebas que el eslabón debe superar). Este es un método cualitativo riguroso para la inferencia causal, proveniente de la ciencia política. Es más efectivo cuando se pueden identificar mecanismos causales específicos y contrastarlos con evidencia documental y de entrevistas.

Cambio Más significativo (MSC): Recopila historias de cambio de los actores clave, las cuales son posteriormente seleccionadas por paneles como las "más significativas". Es un enfoque participativo que captura cambios inesperados y es muy útil para programas complejos donde los indicadores predefinidos no logran capturar lo más relevante.

Evaluación realista: Se pregunta "¿Qué funciona, para quién, en qué circunstancias y por qué?". Evalúa las configuraciones Contexto-Mecanismo-Resultado (CMO) en lugar del impacto general del programa. Es particularmente útil cuando se observa que un programa funciona en algunos contextos pero no en otros, y se busca comprender las razones.

Cuándo utilizar enfoques no experimentales:

No existe o no es factible un grupo de comparación
El programa es complejo, adaptativo o sistémico
Necesita comprender los mecanismos, no solo los resultados
El presupuesto es limitado (entre $15K y $60K para la evaluación)
La pregunta es "cómo y por qué" en lugar de "cuánto"

Fortalezas	Limitaciones
Factible para cualquier tipo de programa	No puede probar la causalidad
Captura la complejidad y el contexto	Los hallazgos son menos generalizables
Más asequible	Requiere evaluadores cualificados
Explica mecanismos, no solo resultados	Algunos donantes no lo aceptan como evidencia suficiente

Comparación de diseños de evaluación

Factor	Experimental (ECA)	Cuasi-Experimental	No Experimental
Evidencia causal	Muy fuerte	Moderada-fuerte	Moderada (contribución, no atribución)
Factibilidad	Baja (muchas condiciones necesarias)	Media	Alta
Costo típico	Más de $100K-500K	$30K-150K	$15K-60K
Cronograma	2-5 años	1-3 años	3-12 meses
Experiencia estadística	Alta	Alta	Moderada
Más adecuado para	Intervenciones simples y estandarizadas	Programas con grupos de comparación naturales	Programas complejos, adaptativos, sistémicos
Aceptación por USAID	Preferido para impacto	Aceptado	Aceptado para preguntas no relacionadas con el impacto
Aceptación por la UE	Aceptado	Aceptado	Común para la mayoría de las evaluaciones
Aceptación por FCDO	Esperado para programas grandes	Aceptado	Aceptado con una fuerte Teoría del Cambio

Ejemplo práctico: elección de un diseño bajo restricciones reales

Un programa de nutrición que opera en 12 distritos busca determinar si su capacitación a trabajadores de salud comunitarios (TSC) logró reducir el retraso en el crecimiento infantil. El programa abarca los 12 distritos, sin un área de comparación no intervenida. El presupuesto para la evaluación es de $40,000 y el cronograma es de 4 meses.

Siga la siguiente secuencia de decisión:

¿Puede aleatorizar? No. El programa ya está implementado en todas las áreas. No es posible crear un grupo de control.

¿Hay un grupo de comparación natural disponible? No. Todos los distritos recibieron la capacitación. Los distritos vecinos presentan sistemas de salud y características demográficas diferentes, lo que los convierte en comparadores inadecuados.

¿Existen datos de línea de base para un diseño cuasi-experimental? El programa recopiló datos rutinarios de los centros de salud (tasas de retraso en el crecimiento, registros de visitas de TSC) antes y después de la capacitación, pero únicamente en los distritos donde se implementó. Sin un grupo de comparación, el diseño de Diferencias en Diferencias (DID) queda descartado.

¿Qué se ajusta al presupuesto y al cronograma? Un presupuesto de $40,000 y un cronograma de 4 meses descartan cualquier opción que requiera la recopilación de datos primarios a gran escala mediante encuestas. Sin embargo, los datos rutinarios de los centros de salud ya están disponibles.

Recomendación: Análisis de contribución utilizando los datos rutinarios existentes de los centros de salud (tendencias de retraso en el crecimiento, frecuencia de visitas de TSC, tasas de referencia), complementado con entrevistas a informantes clave, incluyendo trabajadores de salud y funcionarios de salud del distrito. Se debe mapear la Teoría del Cambio desde la capacitación de los TSC hasta la reducción del retraso en el crecimiento, y luego contrastar cada eslabón con la evidencia disponible. Si las tasas de retraso en el crecimiento mejoraron tras la capacitación, la frecuencia de las visitas de los TSC aumentó, y los trabajadores de salud describen prácticas específicas que cambiaron debido a la capacitación, se podrá construir una historia de contribución creíble. Este enfoque se ajusta al presupuesto, utiliza datos existentes y responde a la pregunta "¿contribuyó la capacitación a la mejora?" sin requerir un grupo de comparación. Para estructurar el diseño, consulte la guía de evaluación, o el Selector de Métodos para explorar alternativas.

Errores comunes

Error 1: elegir el método antes de definir la pregunta. Afirmar "Queremos hacer un ECA" es un planteamiento equivocado. Comience por preguntarse: "¿Qué necesitamos saber y qué diseño responde mejor a esa pregunta dadas nuestras limitaciones?".

Error 2: asumir que un ECA siempre es la mejor opción. Un ECA es el diseño más sólido para la atribución, pero responde a una pregunta muy específica (¿cambió el resultado promedio?) y omite el contexto, los mecanismos y la variación. Para programas complejos, una evaluación bien diseñada de métodos mixtos a menudo produce evidencia más útil.

Error 3: no contar con grupo de comparación ni con teoría. Si no dispone de un grupo de comparación, necesitará un enfoque sólido basado en la teoría (análisis de contribución, rastreo de procesos). Limitarse a medir antes y después sin un grupo de comparación o una forma sistemática de contrastar su Teoría del Cambio produce evidencia muy débil.

Error 4: evaluaciones subfinanciadas. Intentar ejecutar un diseño cuasi-experimental con un presupuesto de $10K suele generar resultados inutilizables. Ajuste la ambición de su diseño a su presupuesto. Un análisis de contribución bien ejecutado por $25K produce mejor evidencia que un DID mal ejecutado por $25K.

Error 5: ignorar las consideraciones éticas. Retener una intervención comprobada del grupo de control plantea problemas éticos. Los diseños de implementación diferida (todos reciben el programa eventualmente, pero el orden se aleatoriza) abordan esta cuestión en los ECA. Para programas en curso, los diseños tipo "pipeline" (que comparan a quienes recibieron el programa primero con aquellos que aún están en lista de espera) representan una alternativa ética.

Error 6: tratar el diseño como inamovible. Su diseño de evaluación debe adaptarse si las circunstancias cambian. Si un grupo de comparación previsto se contamina (recibe un programa similar de otra organización), deberá ajustar el enfoque. Incorpore flexibilidad en su plan de evaluación desde el inicio.

Guía rápida de decisión

Siga esta secuencia. Cada pregunta delimita las opciones.

1. ¿Necesita probar que su programa causó el cambio (atribución)?

Sí, y la aleatorización es factible: ECA
Sí, pero la aleatorización no es factible: Cuasi-Experimental (DID, PSM, RD o ITS, según la disponibilidad de datos)
No, necesita demostrar que su programa contribuyó: Análisis de contribución o Rastreo de procesos

2. ¿Hay un grupo de comparación disponible?

Sí, y está bien emparejado: Cuasi-Experimental
Existe un punto de corte natural (umbral de elegibilidad): Regresión de discontinuidad
No hay grupo de comparación: Enfoques basados en la teoría (análisis de contribución, evaluación realista, MSC)

3. ¿Cuál es su presupuesto para la evaluación?

Más de $100K: Todas las opciones están disponibles. Considere si la pregunta justifica el costo de un ECA.
Entre $30K y $100K: Cuasi-experimental o basado en la teoría. El DID con datos existentes suele ser el punto óptimo.
Menos de $30K: Basado en la teoría, MSC o evaluación de proceso. No intente diseños cuasi-experimentales con este presupuesto.

4. ¿Qué tan complejo es el programa?

Simple y estandarizado: los enfoques experimentales o cuasi-experimentales funcionan bien.
Complejo, adaptativo, de múltiples componentes: enfoques basados en la teoría, evaluación realista o evaluación del desarrollo. Estos diseños manejan mejor la complejidad porque no requieren un "tratamiento" único y estable.

Para profundizar en la comparación entre métodos cuantitativos y cualitativos, consulte cualitativos vs. cuantitativos vs. métodos mixtos.

Cómo seleccionar la metodología de evaluación adecuada

Cómo seleccionar el diseño de evaluación correcto

Las tres familias de diseño

Experimental (ECA)

Cuasi-Experimental

No experimental (Basado en la Teoría y cualitativo)

Combinación de métodos

Comparación de diseños de evaluación

Ejemplo práctico: elección de un diseño bajo restricciones reales

Errores comunes

Guía rápida de decisión

Frequently Asked Questions

Try it in M&E Studio

Related decision guides

Key concepts explained

Explore the topic