Cómo asegurar la calidad del trabajo de M&E asistido por IA

La IA produce respuestas incorrectas que parecen convincentes. Sin un sistema de validación, las publicará. Este marco de 6 capas le da a su equipo de M&E la disciplina para detectar errores antes de que lleguen a los donantes, juntas directivas o comunidades.

Part of the Governance guides·Back to AI for M&E

El sistema de validación de 6 partes para el M&E asistido por IA

Cada producto de M&E asistido por IA debe pasar por seis capas de validación. Si se omite alguna, el modo de fallo que detecta se vuelve invisible. Algunas capas son deterministas (un script o una lista de verificación las verifica). Otras requieren juicio humano. Diseñe para las seis desde el principio, no como una carrera de última hora después de que el donante señale un error.

1

Validación Estructural

¿El producto coincide con el formato esperado? Esquema correcto, campos correctos, tipos de datos correctos, sin secciones faltantes. Un marco lógico tiene los cuatro niveles. Cada indicador tiene una línea de base, una meta y medios de verificación. Un informe incluye las secciones requeridas para esta plantilla del donante. Esta es la puerta más económica y la más fácil de automatizar: un script o una lista de verificación de una página puede verificarla. La falla estructural es el modo de falla de IA más común y el más prevenible. Detéctela aquí y ahorrará el ciclo de revisión.

2

Validación de Fuente

Cada cita, referencia y frase atribuida debe corresponder a una fuente real. Las alucinaciones de la IA son más peligrosas en productos con muchas citas: informes de evaluación que citan estudios inexistentes, revisiones de políticas que parafrasean documentos con números de página incorrectos, informes para donantes que atribuyen afirmaciones al autor equivocado. Verifique cada fuente, especialmente aquellas que suenan demasiado convenientes para el argumento. Esta capa debe ser manual y exhaustiva. Una cita fabricada que llega a un donante es un evento de credibilidad del que no se recupera rápidamente.

3

Validación Fáctica

¿Las afirmaciones en el producto son precisas? Los números cuadran, los porcentajes no están invertidos, las fechas son correctas, las definiciones coinciden con el uso estándar, los términos estadísticos se utilizan correctamente. Las herramientas de IA confunden conceptos similares (impacto vs. resultado, eficacia vs. eficiencia), invierten proporciones y afirman con confianza cosas que son ligeramente incorrectas. Para cualquier contenido cuantitativo, verifique cada cifra con los datos de origen. Para afirmaciones cualitativas, verifique con su base de evidencia. Una estadística invertida en un resumen ejecutivo puede socavar un informe completo.

4

Validación Metodológica

¿El producto sigue el método que dijo que estaba utilizando? La codificación temática asistida por IA se desvía de su libro de códigos si no se verifica. El desarrollo de indicadores asistido por IA mezcla las convenciones PIRS con definiciones no estándar. La triangulación asistida por IA omite el paso de evidencia desconfirmatoria. Antes de aceptar cualquier producto asistido por IA, pregunte: ¿un evaluador senior que lea la sección de metodología reconocería este trabajo como siguiendo ese método? Si no, el producto no es válido, independientemente de lo pulido que parezca o de la rapidez con la que se produjo.

5

Validación de Partes Interesadas

¿El producto coincide con la realidad sobre el terreno? La IA puede producir resultados internamente consistentes que divergen de lo que los participantes realmente dijeron, lo que los implementadores realmente hacen y cómo se ve realmente el programa en el campo. Aquí es donde el compromiso con expertos en la materia, implementadores y (cuando sea apropiado) las comunidades es importante. Para las afirmaciones evaluativas, la pregunta no es "¿suena esto correcto?" sino "¿las personas más cercanas al programa reconocerían esto como verdadero?". Si nadie ha verificado, tiene un artefacto pulido, no un hallazgo válido.

6

Validación de Reproducibilidad

¿Puede otra persona ejecutar el mismo proceso y obtener un resultado comparable? Si la respuesta es no, su proceso de aseguramiento de la calidad (QA) no es auditable y sus hallazgos no son defendibles. La reproducibilidad requiere documentar qué herramienta de IA, qué versión del modelo, qué prompts, qué entradas, qué validaciones pasaron, cuáles fallaron y qué se corrigió. Esto no es burocracia. Es lo que hace que el M&E asistido por IA sea defendible cuando un donante, una junta directiva, una revisión ética o un futuro evaluador pregunta cómo se produjo el hallazgo.

El aseguramiento de la calidad (QA) en la práctica

Tres escenarios que muestran la diferencia entre el trabajo de M&E asistido por IA que supera el escrutinio y el trabajo asistido por IA que no lo hace.

Codificación Temática Asistida por IA

Vague prompt

"Utilizamos una herramienta de IA para codificar 180 transcripciones de entrevistas. Terminó en dos horas. Aceptamos los temas principales y escribimos el capítulo de hallazgos." Pero: nadie verificó si los temas identificados por la IA coincidían con el libro de códigos acordado por el equipo. Dos temas se fusionaron cuando debían permanecer separados. Apareció un tema que ningún codificador humano habría identificado a partir de los datos. El capítulo de hallazgos ahora contiene una afirmación central que en realidad no está respaldada por las transcripciones. Cuando el revisor del donante solicita la pista de auditoría de la codificación, no hay ninguna.

Codificación Temática Asistida por IA

4Cs prompt

"Utilizamos la IA para asistir la codificación inicial, validamos el código completo comparándolo con la codificación humana en una muestra del 20% (84% de acuerdo, desacuerdos revisados y resueltos), verificamos cada tema final con extractos de la fuente, hicimos que un segundo revisor verificara la cadena tema-hallazgo y documentamos el flujo de trabajo en la sección de métodos." Defendible, auditable, basado en los datos y el flujo de trabajo es reproducible.

Informe de Evaluación Redactado por IA

Vague prompt

"La IA redactó la sección de eficacia en 40 minutos. Editamos el estilo y lo enviamos." Pero: tres estudios citados no existen. Una estadística está invertida (reportada como 62 por ciento cuando debería ser 26 por ciento). La sección de metodología describe un enfoque de métodos mixtos que en realidad no se utilizó. El revisor del donante detecta las citas fabricadas, el informe se retira y el equipo pasa las siguientes tres semanas reconstruyendo la credibilidad.

Informe de Evaluación Redactado por IA

4Cs prompt

La IA redactó secciones del informe. Antes del ensamblaje final, el equipo validó cada cita (dos no se resolvieron y fueron reemplazadas por fuentes reales), verificó cada cifra con los datos de origen (encontró y corrigió una proporción invertida), hizo que un gerente de evaluación revisara la sección de metodología para verificar su fidelidad y documentó qué secciones contaron con asistencia de IA. El informe final pasó la revisión del donante en la primera presentación.

Marco de Indicadores Generado por IA

Vague prompt

"La IA generó el marco de indicadores a partir de nuestro marco lógico en 15 minutos." Pero: tres definiciones de indicadores se desvían de las definiciones estándar del donante. Faltan dos requisitos de desagregación exigidos por la plantilla del donante. La columna de medios de verificación mezcla nombres de herramientas que suenan plausibles pero son fabricados. El marco no pasa la revisión del donante. El retrabajo lleva más tiempo del que habría tomado escribir el marco manualmente.

Marco de Indicadores Generado por IA

4Cs prompt

"La IA generó un borrador de marco. Validamos cada definición de indicador con el manual del donante (detectamos 3 desviaciones), verificamos los requisitos de desagregación con la plantilla estándar (agregamos 2 categorías faltantes) y confirmamos que cada medio de verificación era una herramienta real en nuestro plan de recopilación de datos." La IA aceleró la redacción en aproximadamente un 70 por ciento. La validación de expertos evitó 5 errores que habrían fallado la revisión del donante.

5 prácticas de aseguramiento de la calidad (QA) que todo equipo de M&E debería implementar

Pasos pequeños sobre el monolito

Una gran instrucción de IA oculta fallas dentro de una pared de resultados. Divida las tareas de M&E en pasos pequeños (extraer, verificar, codificar, validar) y verifique el resultado después de cada paso. Las fallas se vuelven específicas y solucionables. Una tarea de extracción de evidencia ejecutada en cinco pasos verificados es mucho más confiable que una instrucción larga de "hacerlo todo". Las instrucciones pequeñas y de un solo propósito son más fáciles de depurar, más fáciles de validar y más fáciles de confiar.

Puertas deterministas primero, puertas de juicio segundo

Automatice lo que pueda. La validación de esquemas, las verificaciones de formato, la resolución de URL de citas, el cumplimiento del formato de fecha y las verificaciones de rango numérico pueden ser programadas o capturadas en una lista de verificación de una página. Guarde la atención humana para las puertas que realmente necesitan juicio: ¿este tema coincide con el libro de códigos, este hallazgo coincide con la evidencia, esta recomendación se deriva del análisis? Los humanos son caros; gaste su atención donde importa.

Las pistas de auditoría no son opcionales

Para cada producto de M&E asistido por IA, registre el modelo, la instrucción (prompt), la entrada, la salida y qué validación se aplicó. Esto es reproducibilidad básica, y sin ella su trabajo asistido por IA no es defendible cuando alguien pregunta cómo se produjo el hallazgo. Almacene los registros de auditoría junto con el producto, no en un sistema separado que la gente olvida revisar. Si la pista de auditoría es difícil de mantener, la herramienta es incorrecta.

Sepa dónde los humanos son obligatorios

Algunos pasos pueden ser asistidos por IA y muestreados (por ejemplo, verificar el 10 por ciento de las transcripciones codificadas). Algunos pasos requieren una revisión humana completa (por ejemplo, cada cita con fuente en un informe publicado). Algunos pasos no deben ser asistidos por IA en absoluto (por ejemplo, juicios evaluativos finales sobre la efectividad del programa, recomendaciones que afectan la financiación). Trace las líneas antes de que comience el trabajo, no durante la prisa cuando faltan tres días para una fecha límite.

Adapte la profundidad del QA a la importancia del producto

Un resumen interno de primer borrador recibe un QA ligero. Un informe de evaluación de medio término para un donante recibe el sistema completo de validación de seis capas. Escale el esfuerzo a la consecuencia. Si el producto informa una decisión de financiación, un rediseño de programa o un informe público, se aplica cada capa. Si es un documento de trabajo interno que nadie citará, puede priorizar. El error es aplicar la misma profundidad de QA en todas partes, lo que o bien desperdicia esfuerzo en trabajos de baja importancia o subvalida trabajos de alta importancia.

Generador de lista de verificación de QA para IA

Utilice esta instrucción para generar una lista de verificación de QA personalizada para una tarea específica de M&E asistida por IA. La lista de verificación cubre las 6 capas de validación, señala lo que debe ser revisado por humanos frente a lo que puede automatizarse, y destaca los modos de fallo más probables en ese tipo de tarea.

Instrucción para lista de verificación de QA de IA en M&E

Necesito que genere una lista de verificación de aseguramiento de la calidad para una tarea específica de M&E asistida por IA. La lista de verificación debe cubrir las 6 capas de validación e identificar los modos de fallo más probables en este tipo de tarea.

Tarea: [DESCRIBA: por ejemplo, "Codificación temática asistida por IA de 120 transcripciones de grupos focales para una evaluación de medio término"]

Contexto:
- Tipo de producto: [informe de evaluación / marco de indicadores / conjunto de datos codificados / teoría del cambio / memorándum analítico / otro]
- Importancia: [Baja: documento de trabajo interno / Media: entregable para el equipo / Alta: para donantes o publicación / Crítica: informa decisiones de financiación o programa]
- Herramienta de IA: [ChatGPT / Claude / Gemini / personalizada / aún no seleccionada]
- Tipo de datos: [texto anonimizado / texto identificable / cuantitativo / mixto / documentos]
- Capacidad del equipo para revisión: [Limitada: un revisor / Estándar: primario + secundario / Profunda: revisión de panel completo]

Para cada una de las 6 capas de validación a continuación, proporcione:
1. Una lista de verificación de sí/no de 3-4 elementos específicos para esta tarea
2. Un modo de fallo de mayor riesgo para este tipo de tarea
3. Si esta capa puede automatizarse, debe ser revisada por humanos o requiere ambos
4. Qué hacer si la verificación falla

Capas:
1. Validación Estructural (esquema, formato, completitud)
2. Validación de Fuente (citas, referencias, atribuciones)
3. Validación Fáctica (precisión, números, definiciones)
4. Validación Metodológica (fidelidad del método, alineación con el libro de códigos)
5. Validación de Partes Interesadas (verdad en el terreno, revisión de expertos en el dominio)
6. Validación de Reproducibilidad (pista de auditoría, capacidad de volver a ejecutar)

Finalice con una secuencia de revisión recomendada: qué capas se ejecutan en paralelo, cuáles son secuenciales y dónde están los puntos de decisión para detener o reelaborar. Formatee como una lista de verificación imprimible con casillas de verificación.

Combine el aseguramiento de la calidad (QA) con la gobernanza

El aseguramiento de la calidad es cómo se detectan los errores. La gobernanza es cómo se hace que el uso de la IA sea defendible en primer lugar. Su función de M&E necesita que ambos trabajen juntos, no uno u otro.