Reliability - Biblioteca de M&E

Definición

Fiabilidad se refiere a la consistencia y repetibilidad de una medición — si su herramienta de recolección de datos produce resultados estables y confiables cuando se aplica repetidamente en condiciones similares. Una medición fiable produce los mismos (o muy similares) resultados cuando se administra varias veces a los mismos sujetos, cuando es utilizada por diferentes recolectores de datos, o cuando se divide en formas paralelas.

La fiabilidad es un requisito previo para la validez: una medición puede ser fiable sin ser válida (midiendo consistentemente lo incorrecto), pero no puede ser válida sin ser fiable (las mediciones inconsistentes no pueden capturar la realidad con precisión). En la práctica, las pruebas de fiabilidad típicamente preceden la recolección de datos a gran escala como parte de los protocolos de aseguramiento de la calidad de los datos.

Por Qué Importa

En el trabajo de M&E, las mediciones no fiables socavan cada decisión posterior. Si su instrumento de encuesta produce resultados diferentes dependiendo de qué encuestador lo administre, o si su rúbrica de puntuación produce calificaciones diferentes cuando es aplicada por diferentes evaluadores, no puede distinguir los efectos del programa del error de medición. Esto crea señales falsas que llevan a conclusiones incorrectas sobre qué está funcionando.

Las pruebas de fiabilidad son particularmente críticas cuando:

Introduciendo nuevas herramientas — Indicadores novedosos o métodos de evaluación tienen propiedades de fiabilidad desconocidas hasta que se prueban
Capacitando nuevos recolectores de datos — Incluso herramientas bien diseñadas producen resultados inconsistentes si los recolectores las aplican de manera diferente
Comparando datos a través del tiempo o grupos — Sin evidencia de fiabilidad, las diferencias observadas pueden reflejar inconsistencia de medición en lugar de cambio real
Tomando decisiones de alto riesgo — Las asignaciones de financiamiento, los giros del programa y las decisiones de terminación requieren confianza de que las mediciones son estables

Invertir en pruebas de fiabilidad al inicio previene errores costosos después, incluyendo recolección de datos desperdiciada en instrumentos defectuosos y conclusiones erróneas del programa que dañan la credibilidad organizacional.

En la Práctica

La fiabilidad se manifiesta en varias formas, cada una probada de manera diferente:

Fiabilidad de prueba-reprueba evalúa si una herramienta produce resultados estables a lo largo del tiempo. El mismo instrumento se administra a los mismos sujetos en dos ocasiones (típicamente 1-2 semanas de diferencia, lo suficientemente largo para que los encuestados no recuerden las respuestas pero lo suficientemente corto para que el constructo subyacente no haya cambiado). Los coeficientes de correlación por encima de 0.70 generalmente indican estabilidad aceptable. Esto es esencial para encuestas que miden actitudes, percepciones u otros constructos que podrían cambiar genuinamente.

Fiabilidad entre evaluadores evalúa si diferentes recolectores de datos aplican una herramienta consistentemente. Dos o más evaluadores evalúan independientemente a los mismos sujetos utilizando el mismo instrumento (por ejemplo, dos evaluadores calificando la misma documentación del programa, dos encuestadores conduciendo observaciones paralelas). Las métricas incluyen porcentaje de acuerdo (simple pero inflado por azar) o Kappa de Cohen/Kappa de Fleiss (acuerdo corregido por azar). Las sesiones de capacitación y calibración mejoran directamente la fiabilidad entre evaluadores.

Consistencia interna mide si los elementos dentro de una escala de múltiples elementos miden el mismo constructo. El Alpha de Cronbach es la métrica estándar, con valores por encima de 0.70 indicando consistencia aceptable. Esta es la preocupación de fiabilidad más comúnmente abordada durante el desarrollo de encuestas — elementos mal redactados o ambiguos reducen la consistencia interna y típicamente se revisan o eliminan.

Fiabilidad de formas paralelas prueba si dos versiones del mismo instrumento producen resultados equivalentes. Menos común en M&E pero relevante cuando necesita versiones alternas (por ejemplo, pruebas pre/post que no deberían ser idénticas para evitar efectos de práctica).

En la práctica, la fiabilidad rara vez es un pase/fallo binario. Es una propiedad de su herramienta específica en su contexto específico con sus recolectores de datos específicos. Una encuesta validada en un entorno puede mostrar mala fiabilidad en otro debido a diferencias culturales, niveles de alfabetización o calidad de la capacitación de los encuestadores. El monitoreo continuo de métricas de fiabilidad — particularmente el acuerdo entre evaluadores durante la recolección de datos — ayuda a detectar la deriva antes de que comprometa sus hallazgos.

Temas Relacionados

Aseguramiento de la Calidad de los Datos — El marco más amplio para asegurar la calidad de la medición
Validez — Si su herramienta mide lo que afirma medir
Herramientas de Medición — Instrumentos de encuesta y métodos de evaluación
Fiabilidad entre Evaluadores — Enfoque específico en la consistencia de los evaluadores
Fiabilidad de Prueba-Reprueba — Enfoque específico en la estabilidad temporal

Vea también: Sesgo, Error de Medición, Validación de Instrumentos