Validez (Interna y externa)

Definición

Validez se refiere a la exactitud y fiabilidad de las conclusiones obtenidas a partir de los datos de una evaluación. Los profesionales deben considerar dos dimensiones clave por separado:

Validez interna aborda la pregunta: ¿Fue el programa la causa real de los resultados observados? Su objetivo es establecer una inferencia causal creíble, descartando explicaciones alternativas como el sesgo de selección, la maduración o eventos externos que podrían haber generado los mismos resultados. Una alta validez interna permite atribuir con confianza el cambio a la intervención, y no a factores de confusión.

Validez externa se pregunta: ¿Pueden estos hallazgos generalizarse más allá del estudio específico? Esta dimensión se refiere a la aplicabilidad de los resultados a otros contextos, poblaciones o periodos de tiempo. Un estudio con alta validez externa genera conocimientos que siguen siendo útiles incluso cuando las condiciones del programa difieren del entorno evaluado.

Estas dos dimensiones a menudo presentan una compensación: los estudios estrictamente controlados maximizan la validez interna, pero pueden limitar la generalizabilidad, mientras que las implementaciones en entornos reales ofrecen conocimientos contextuales más ricos a expensas de la claridad causal.

Por qué importa

La validez es el pilar de un monitoreo y evaluación (M&E) creíble. Sin ella, resulta imposible distinguir el éxito de un programa de la mera coincidencia, o extraer lecciones aplicables más allá de un caso específico. Los profesionales se enfrentan a la preocupación por la validez cada vez que realizan afirmaciones causales, como "nuestra capacitación mejoró las habilidades" o "la intervención redujo las tasas de deserción". Estas afirmaciones son fundamentales para las decisiones de financiación, las adaptaciones de programas y el aprendizaje organizacional.

Una validez deficiente puede llevar a errores costosos: escalar programas ineficaces, abandonar intervenciones exitosas o asignar recursos de manera inadecuada basándose en correlaciones espurias. Por el contrario, una atención explícita a la validez fortalece el diseño de la evaluación, clarifica lo que se puede afirmar de manera razonable y genera confianza entre las partes interesadas en los hallazgos. En el caso de las evaluaciones de impacto y los diseños cuasi-experimentales, la validez es el criterio de calidad primordial; sin ella, la evaluación no puede cumplir su propósito.

En la práctica

Amenazas a la validez interna incluyen:

Sesgo de selección: los grupos de comparación difieren sistemáticamente antes de la intervención.
Historia: eventos externos que coinciden con el programa e influyen en los resultados.
Maduración: cambios naturales que ocurren con el tiempo y se confunden con efectos del programa.
Efectos de prueba: la exposición previa a una prueba influye en las respuestas posteriores.
Instrumentación: cambios en los instrumentos de medición a lo largo del tiempo que crean efectos artificiales.

Para abordar estas amenazas, se requiere un diseño cuidadoso: aleatorización (cuando sea factible), grupos de comparación emparejados, mediciones pre-post y controles estadísticos para los factores de confusión.

Amenazas a la validez externa incluyen:

Representatividad de la muestra: los participantes del estudio difieren de la población objetivo.
Especificidad contextual: los resultados dependen de condiciones locales únicas.
Limitaciones temporales: los hallazgos solo son aplicables a periodos de tiempo específicos.
Fidelidad de la implementación: el programa se implementa de manera diferente a lo previsto.

Para fortalecer la validez externa, es fundamental un muestreo intencional, la documentación de las condiciones contextuales, la realización de pruebas en múltiples sitios y la explicitación de las condiciones límite para la generalización.

En las evaluaciones de impacto (Evaluación de Impacto), la validez interna es primordial: el estudio debe establecer la causalidad antes de considerar su generalización. En los diseños cuasi-experimentales (Diseño Cuasi-Experimental), los profesionales utilizan técnicas como el emparejamiento por puntaje de propensión o la diferencia-en-diferencias para aproximar la aleatorización y reforzar las afirmaciones causales. En todo momento, el aseguramiento de la calidad de datos garantiza que la fiabilidad de la medición respalde la validez; los datos no fiables no pueden ser válidos.

Temas relacionados

Fiabilidad: la consistencia de la medición, un prerrequisito para la validez.
Diseño Cuasi-Experimental: métodos para establecer inferencia causal.
Evaluación de Impacto: ámbito donde la validez es la principal preocupación.
Aseguramiento de la Calidad de Datos: garantiza la precisión de la medición.
Sesgo: errores sistemáticos que amenazan la validez.
Contrafactual: la comparación necesaria para las afirmaciones causales.