Guía práctica de IA
Limpiar datos de M&E con IA
4 pasos · Funciona con cualquier asistente de IA · No requiere registro
Definir reglas de validación
Los datos limpios comienzan con reglas explícitas sobre lo que significa "válido". Este primer paso convierte la descripción de su conjunto de datos y la lista de variables en un conjunto completo y priorizado de reglas de validación que el resto del proceso de limpieza aplicará. Pegue la descripción de su conjunto de datos y las variables de la encuesta después del prompt.
La IA generará un conjunto completo de reglas de validación, ordenadas por prioridad.
Indicación para este paso
Usted es un especialista senior en datos de M&E. Basándose en la descripción del conjunto de datos y las variables de la encuesta que proporciono a continuación, defina un conjunto completo de reglas de validación que regirán el proceso de limpieza de datos para este conjunto de datos. Genere su respuesta en secciones etiquetadas, una por variable (utilice secciones con encabezados claros en lugar de tablas). Cubra cada variable del conjunto de datos, no una muestra. Para cada variable, incluya los siguientes componentes: 1. **Nombre y tipo de variable** — El identificador de la variable tal como aparece en el conjunto de datos, su tipo de dato (numérico continuo, numérico discreto, categórico ordinal, categórico nominal, binario, cadena de texto, fecha, hora, geo-coordenada) y unidades si aplica. 2. **Rango válido o valores permitidos** — Para variables numéricas, los límites mínimos y máximos plausibles (con justificación: ej., "edad 0-120 basada en los límites de la vida humana"). Para variables categóricas, la lista completa de códigos permitidos. Para fechas, el período válido. Para cadenas de texto, restricciones de formato (patrón de correo electrónico, patrón de teléfono, patrón de ID). 3. **Obligatorio vs. opcional** — Si la variable debe ser no-nula para cada registro, o puede estar legítimamente en blanco; si es opcional, bajo qué condiciones un valor en blanco es válido. 4. **Reglas de dependencia** — Lógica de patrones de salto y requisitos condicionales, por ejemplo: "si P12 = Sí, P13 debe ser no-nula; si P12 = No, P13 debe ser nula." Nombre cada dependencia explícitamente. 5. **Verificaciones de consistencia entre variables** — Relaciones lógicas con otras variables, por ejemplo: "la edad debe ser consistente con la fecha de nacimiento si ambas se capturan", "el tamaño del hogar debe ser igual a la suma de adultos y niños", "el estado de embarazo debe ser No para los encuestados masculinos." 6. **Patrones de error conocidos de encuestas similares** — Errores comunes del encuestador o de entrada de datos a tener en cuenta (transposición de dígitos en números de teléfono, 999/888 como códigos de valores perdidos, entradas duplicadas, lecturas de GPS fuera del área de la encuesta). 7. **Bandera de severidad** — Etiquete cada regla como bloqueante (el registro no puede usarse hasta que se corrija), advertencia (marcar para revisión pero no descalificante) o informativa (solo registrar). Termine con una sección de cierre titulada **Orden de prioridad de las reglas** que enumere las 10 verificaciones de validación más críticas para la integridad de este conjunto de datos, con una justificación de una oración por verificación. Genere la salida como secciones etiquetadas estructuradas en markdown. Descripción de mi conjunto de datos y variables de la encuesta: [PEGUE AQUÍ LA DESCRIPCIÓN DE SU CONJUNTO DE DATOS Y LA LISTA DE VARIABLES]
Paso 1 de 4