Las 6 acciones que hacen que la IA sea fiable para el trabajo de M&E
Estas son las prácticas que separan la IA que se puede utilizar en trabajos serios de M&E de la IA que produce ruido que suena fluido. Ninguna de ellas es difícil. Simplemente no son comportamientos predeterminados, por lo que los equipos los omiten y luego se preguntan por qué los resultados fueron señalados en la revisión del donante.
Basa los resultados en tus fuentes, no en la memoria del modelo
La mayoría de las alucinaciones provienen de pedirle al modelo que recuerde cosas que no debería recordar. Citas, estadísticas, definiciones específicas de donantes, convenciones de indicadores, detalles del programa: todo esto debe provenir del material que usted pega, no de lo que el modelo haya aprendido en el entrenamiento. Estructure las instrucciones en torno al texto fuente. "Codifica las transcripciones a continuación usando el libro de códigos a continuación" es fiable. "Identifica temas en datos cualitativos de M&E" no lo es. Cuanto más dependa la instrucción del conocimiento del modelo, mayor será la superficie de alucinación que tendrá.
Usa modelos locales cuando la sensibilidad de los datos lo exija
La IA en la nube es cómoda y potente. También envía sus datos a servidores que no puede ver ni auditar completamente. Para el trabajo de M&E que implica datos identificables de participantes, contexto de programa sensible o hallazgos confidenciales para el donante, los modelos locales cambian el perfil de riesgo. Los modelos locales se ejecutan en su propia máquina o infraestructura organizacional. Los datos nunca salen. Son más pequeños y a veces menos capaces que los modelos en la nube, pero la ganancia en privacidad supera la pérdida de capacidad para trabajos sensibles. La estrategia correcta es híbrida: modelos locales para datos sensibles, en la nube para trabajos anonimizados o de cara al público.
Coloca el control de calidad entre los pasos, no al final
El patrón predeterminado con la IA es dejar que produzca el resultado completo y revisarlo después. Esa es la forma más costosa de detectar errores. Un patrón mejor: inserte una verificación después de cada paso significativo. Después de la extracción, antes de la codificación. Después de la codificación, antes de la síntesis. Después de la síntesis, antes de la redacción. Cuando un paso falla, lo detecta inmediatamente, antes de que el error se propague. Revisar en el medio parece más lento; generalmente es más rápido de principio a fin.
Sabe qué tipo de control de calidad se ajusta al problema
No todo el control de calidad es igual. En términos generales, tres familias cubren la mayoría de los patrones relevantes para M&E. Las verificaciones post-borrador se ejecutan contra el resultado de la IA para probar si cumple con las especificaciones: validadores de formato, listas de verificación de completitud, resolución de citas, detectores de alucinaciones. Las verificaciones pre-resultado se ejecutan antes de que se finalice cualquier cosa: verificaciones de idioma, escaneos de PII, reducción de redundancia, verificaciones de tono. Las verificaciones de reemplazo de borrador producen múltiples variantes y seleccionan la mejor: torneos, métodos de consenso, evaluación de modelo-juez. El error es intentar usar una familia para todo. Elija la que coincida con el modo de fallo que está tratando de prevenir.
Divide las grandes tareas de IA en pequeñas
Una sola instrucción que le pida a la IA que "lea estas 20 transcripciones, identifique temas, las codifique y redacte la sección de hallazgos" fallará de maneras impredecibles. El mismo trabajo dividido en seis o siete instrucciones más específicas, cada una haciendo una cosa, con una verificación entre cada una, produce un resultado mucho más fiable. La IA empeora con cada tarea adicional que tiene que manejar dentro de una sola instrucción. Cada tarea que separe es un modo de fallo que puede prever. Las instrucciones pequeñas y de un solo propósito son más fáciles de depurar y más fáciles de confiar.
Ejecuta los pasos críticos varias veces para mayor estabilidad
Los resultados de la IA son probabilísticos. Ejecute la misma instrucción tres veces con la misma entrada y obtendrá tres resultados ligeramente diferentes. Para el trabajo de M&E donde la estabilidad importa (temas de datos cualitativos, definiciones de indicadores, prioridades de recomendaciones), ejecute el paso importante dos o tres veces y compare. Donde las ejecuciones coinciden, tiene un resultado robusto. Donde no coinciden, tiene algo que vale la pena examinar con más cuidado. Esto es barato, es rápido y la mayoría de los equipos no lo hacen.
Fiabilidad en la Práctica
Tres modos de fallo concretos y cómo se ve corregirlos.
Citas Alucinadas en una Sección de Informe
Se le pide a la IA que "redacte la sección de revisión de literatura para este informe de M&E" y produce un párrafo fluido con cuatro citas académicas. Tres de esas citas no existen. La cuarta es real pero el número de página es incorrecto. El borrador parece pulido y seguro. Nadie verifica las citas antes de que el informe pase por revisión interna. El revisor lo detecta y el equipo tiene que reconstruir la sección bajo la presión de la fecha límite.
Citas Alucinadas en una Sección de Informe
Se le pide a la IA que "redacte la revisión de literatura utilizando solo la lista de fuentes adjunta" y produce un párrafo igualmente fluido. Cada cita corresponde a una fuente que realmente está en la lista adjunta. La verificación de calidad confirma que cada referencia se resuelve en un documento real. El borrador pasa por revisión sin problemas porque la superficie de alucinación se cerró a nivel de la instrucción.
Datos Sensibles Cargados a la IA en la Nube
El equipo necesita una codificación temática rápida de 150 entrevistas a informantes clave para una revisión de medio término. Bajo la presión de la fecha límite, alguien sube las transcripciones completas (con los nombres de los participantes intactos) a un chatbot de IA comercial. Los datos permanecen en los servidores de ese proveedor indefinidamente. La organización no puede auditar lo que les sucedió. Cuando un donante pregunta sobre el manejo de datos durante la próxima revisión, el equipo no tiene una respuesta defendible.
Datos Sensibles Cargados a la IA en la Nube
El equipo realiza la codificación inicial en un modelo de IA local en una computadora portátil de trabajo. Las transcripciones nunca salen del dispositivo. La IA en la nube se utiliza solo para tareas posteriores donde el contenido está anonimizado o no es sensible (redacción de un resumen público a partir de extractos limpios). El manejo de datos es auditable de principio a fin. La pregunta del donante tiene una respuesta sencilla.
Temas de una Sola Ejecución Tratados como Estables
El equipo le pide a la IA que "genere temas a partir de este conjunto de datos cualitativos". Toma los temas de la única ejecución y los utiliza para estructurar el capítulo de hallazgos. Seis semanas después, alguien ejecuta la misma instrucción con los mismos datos y obtiene un conjunto de temas diferente. Las elecciones analíticas originales ahora se basan en un resultado que resultó ser inestable, y no se documentó como tal.
Temas de una Sola Ejecución Tratados como Estables
El equipo ejecuta la generación de temas tres veces. Compara los resultados. Solo considera los temas que aparecieron en al menos dos de las tres ejecuciones. Los temas inestables se marcan para revisión manual. El análisis final se documenta con una nota sobre cómo se evaluó la estabilidad. Cuando alguien lo vuelve a ejecutar más tarde, la metodología explica por qué los temas se mantuvieron.
5 Prácticas de Fiabilidad que se Acumulan con el Tiempo
Estructura las instrucciones en torno al material fuente
Cada instrucción de M&E debe comenzar con la fuente (transcripción, libro de códigos, documento, conjunto de datos) y la instrucción debe hacer referencia a esa fuente. "Extrae temas de las transcripciones a continuación" es mejor que "Identifica temas comunes en datos cualitativos de M&E". Las instrucciones que dependen de los datos de entrenamiento del modelo son instrucciones que alucinan. Las instrucciones que dependen del material que usted proporciona son instrucciones que se basan en la realidad.
Realiza al menos un experimento con un modelo local
No tiene que comprometerse con los modelos locales. Al menos debería saber lo que pueden y no pueden hacer. Una tarde ejecutando un modelo local en tareas reales de M&E le enseña dónde el compromiso entre privacidad y capacidad realmente afecta su trabajo. Sin ese experimento, las decisiones sobre la nube frente a lo local son conjeturas.
Ajusta la profundidad del control de calidad a la importancia del resultado
Un memorándum interno desechable no necesita la pila completa de control de calidad. Una afirmación de impacto dirigida a un donante sí. Ajuste la profundidad del control de calidad a la consecuencia del resultado. El error es aplicar la misma profundidad de control de calidad en todas partes, lo que o bien desperdicia esfuerzo en trabajos de baja importancia o subvalida el trabajo de alta importancia.
Nunca ejecutes una tarea importante de IA una sola vez
Las ejecuciones de estabilidad son baratas. Si un resultado de IA va a ser citado, impulsará una decisión o llegará a un donante, ejecute el paso crítico al menos dos veces y verifique la concordancia. El costo es de minutos. La información sobre qué partes del resultado son estables versus ruidosas es sustancial. Los equipos que no hacen esto terminan tratando los resultados probabilísticos como deterministas, lo cual es el camino más rápido hacia errores evitables.
Registra lo que la IA realmente hizo
Para cualquier resultado asistido por IA que se vaya a utilizar, registre el modelo, la instrucción, la entrada y la salida. No por cumplimiento. Para usted mismo, tres meses después, cuando alguien le pregunte cómo produjo el resultado y necesite reconstruirlo. Si sus herramientas dificultan mantener este registro, las herramientas son incorrectas.
Instrucción de Auditoría de Fiabilidad de IA
Utilice esta instrucción para auditar un resultado de M&E asistido por IA según las seis dimensiones de fiabilidad. Señala modos de fallo específicos a tener en cuenta dada la tarea y la importancia.
Instrucción de Auditoría de Fiabilidad de IA para M&E
Quiero auditar la fiabilidad de un resultado de M&E asistido por IA antes de usarlo. Revise las seis dimensiones de fiabilidad y señale riesgos específicos para esta tarea.
Resultado a auditar:
- Tarea: [ej., "codificación inicial de 80 transcripciones de grupos focales" / "redacción de una revisión de literatura" / "generación de definiciones de indicadores"]
- Tipo de resultado: [conjunto de datos codificados / sección de informe / marco / memorándum analítico / otro]
- Importancia: [Baja: memorándum interno / Media: entregable para el equipo / Alta: para donantes o publicación / Crítica: alimenta una decisión de financiación o programa]
- Herramienta de IA utilizada: [ChatGPT / Claude / Gemini / modelo local / otro]
- Sensibilidad de los datos: [públicos / anonimizados / identificables / confidenciales]
Para cada una de las seis dimensiones a continuación, produzca:
1. El riesgo específico para este tipo de tarea (una oración)
2. Una verificación concreta que el equipo debería realizar
3. Una señal de fallo a buscar (cómo se ve el problema cuando ocurre)
Dimensiones:
1. Fundamentación en la fuente (¿el resultado se basó en la memoria del modelo o en fuentes proporcionadas?)
2. Elección del modelo apropiado (¿se utilizó el modelo correcto para esta sensibilidad?)
3. Ubicación del control de calidad (¿se realizaron verificaciones entre los pasos o solo al final?)
4. Adecuación de la familia de control de calidad (¿el equipo utilizó el tipo correcto de verificación para el modo de fallo?)
5. Alcance de la tarea (¿se le pidió a la IA que hiciera una cosa o muchas cosas a la vez?)
6. Estabilidad (¿se ejecutó el paso varias veces para los resultados importantes?)
Termine con un breve veredicto general de fiabilidad: verde (enviar), amarillo (enviar con advertencias específicas), rojo (no enviar, se necesitan correcciones específicas).