El Flujo de Trabajo de Limpieza de 4 Pasos

Sigue estos pasos en orden. Cada uno se basa en el anterior, pasando del diagnóstico a la validación impulsada por IA.

1

Diagnosticar

Ejecuta facetas de texto y numéricas en cada columna. Cuenta valores únicos, detecta variaciones (Kampala/kampala/KAMPALA) y documenta qué columnas necesitan atención antes de tocar nada.

2

Estandarizar

Primero, corrige los campos de texto: recorta espacios, estandariza mayúsculas/minúsculas, luego usa la agrupación (clustering) para fusionar valores similares. Una transformación maneja cientos de registros en segundos.

3

Limpiar

Unifica los valores faltantes (reemplaza N/A, ---, null con un único estándar), luego desduplica ordenando por IDs únicos y eliminando copias extra. Documenta cada cambio en un registro de limpieza.

4

Validar con IA

Exporta los campos categóricos limpios a ChatGPT o Claude para verificaciones contextuales. La IA detecta lo que la agrupación (clustering) no puede: niveles administrativos incorrectos, lugares mal escritos, entradas fuera de alcance.

Cómo se Ven los Datos Limpios

Ejemplos reales de conjuntos de datos M&E que muestran lo que te cuestan los datos desordenados y lo que produce el flujo de trabajo de limpieza.

Datos de Ubicación

Vague prompt

"Kampala, kampala, KAMPALA, Kampal, Kampala District" contados como 5 ubicaciones separadas. El análisis geográfico muestra 5 áreas en lugar de 1. Los informes de cobertura son incorrectos.

Datos de Ubicación

4Cs prompt

"Kampala" aparece una vez. Todas las variantes fusionadas mediante agrupación (clustering), error tipográfico detectado por la validación de IA. El análisis geográfico es preciso y los informes de cobertura son correctos.

Valores Faltantes

Vague prompt

"N/A" en 23 celdas, "---" en 15, "missing" en 8, en blanco en 41. La herramienta de análisis cuenta "N/A" como una respuesta de texto. El cálculo de la tasa de respuesta es un 12% más alto que la realidad.

Valores Faltantes

4Cs prompt

Los 87 valores faltantes estandarizados a blanco. La herramienta de análisis identifica correctamente 87 respuestas faltantes. La tasa de respuesta baja del 95% al 83%, el número real.

Registros Duplicados

Vague prompt

12 encuestados ingresados dos veces en 800 registros. El tamaño de la muestra inflado en un 1.5%. Los promedios de ingresos sesgados porque los hogares duplicados se contaron doble.

Registros Duplicados

4Cs prompt

12 duplicados identificados por ID de encuestado, revisados para verificar su integridad, eliminados. 788 registros únicos. Las estadísticas ahora reflejan la población real muestreada.

5 Reglas para Datos Más Limpios

Nunca edites el archivo original

Trabaja siempre en una copia. Nombra los archivos claramente: "Baseline_Kenya_2024_Raw.csv" para el original, "Baseline_Kenya_2024_CLEAN.csv" para la salida. Si algo falla, puedes empezar de nuevo.

Diagnostica antes de limpiar

Ejecuta facetas en cada columna primero. Cinco minutos de diagnóstico ahorran una hora de limpieza desenfocada. Conoce exactamente qué columnas necesitan qué tipo de corrección.

Mantén un registro de limpieza

Registra cada cambio: ID de registro, nombre del campo, valor original, valor corregido y por qué. Esta pista de auditoría es un requisito de DQA para la mayoría de los donantes y te protege durante la verificación de datos.

Guarda tu historial de operaciones

Exporta tu flujo de trabajo de limpieza como JSON desde OpenRefine. Aplícalo al siguiente conjunto de datos con un solo clic. Cinco conjuntos de datos regionales, una receta de limpieza.

Usa la IA solo después de anonimizar

Elimina nombres, números de teléfono y cualquier PII antes de enviar datos a ChatGPT o Claude para su validación. La validación con IA es potente, pero no vale la pena una violación de la protección de datos.

Prompt de Validación para Copiar y Pegar

Después de limpiar tus datos, exporta la columna que deseas validar y usa este prompt con ChatGPT, Claude o Gemini.

Prompt de Validación de Datos con IA

Estoy limpiando datos de [FIELD TYPE: location / activity / organization / name] de una encuesta en [YOUR COUNTRY OR REGION, e.g., 'Kenya'].

Por favor, revisa esta lista de [NUMBER OF VALUES, e.g., '50'] valores y:

1. Marca cualquier posible error ortográfico o de escritura
2. Marca cualquier valor que parezca sospechoso (no entradas reales para este tipo de campo en este país)
3. Sugiere correcciones donde sean obvias
4. Identifica cualquier caso donde el [VALIDATION LEVEL: administrative level / category / classification] parezca incorrecto

Contexto: [WHAT THE FIELD CONTAINS, e.g., 'county-level locations in Kenya']

Formatea tu respuesta como una tabla:
Valor | Estado (válido / verificar / error) | Corrección Sugerida | Notas

Datos:
[PASTE YOUR VALUES HERE, e.g., 'one value per line']

Cómo Limpiar Datos M&E Desordenados con IA

El Flujo de Trabajo de Limpieza de 4 Pasos

Diagnosticar

Estandarizar

Limpiar

Validar con IA

Cómo se Ven los Datos Limpios

5 Reglas para Datos Más Limpios

Nunca edites el archivo original

Diagnostica antes de limpiar

Mantén un registro de limpieza

Guarda tu historial de operaciones

Usa la IA solo después de anonimizar

Prompt de Validación para Copiar y Pegar

Ponlo en Práctica

Cómo Limpiar Datos M&E Desordenados con IA

El Flujo de Trabajo de Limpieza de 4 Pasos

Diagnosticar

Estandarizar

Limpiar

Validar con IA

Cómo se Ven los Datos Limpios

5 Reglas para Datos Más Limpios

Nunca edites el archivo original

Diagnostica antes de limpiar

Mantén un registro de limpieza

Guarda tu historial de operaciones

Usa la IA solo después de anonimizar

Prompt de Validación para Copiar y Pegar

Related Resources

Cómo Escribir Prompts de IA para M&E

Cómo Construir Mejores Encuestas con IA

Cómo Codificar Datos Cualitativos con IA

Aseguramiento de la Calidad de Datos

Gestión de Datos

Crear un Protocolo de Auditoría de Calidad de Datos

Ponlo en Práctica