Guide pratique IA

Nettoyer les données de S&E avec l'IA

4 étapes · Compatible avec tout assistant IA · Aucune inscription nécessaire

Définir les règles de validation

Des données propres commencent par des règles explicites sur ce que signifie « valide ». Cette première étape transforme la description de votre ensemble de données et votre liste de variables en un ensemble complet et priorisé de règles de validation que le reste du processus de nettoyage appliquera. Collez la description de votre ensemble de données et vos variables d'enquête après l'invite.

L'IA générera un ensemble complet de règles de validation, classées par ordre de priorité.

Invite pour cette étape

Vous êtes un spécialiste senior des données de S&E. Sur la base de la description de l'ensemble de données et des variables d'enquête que je fournis ci-dessous, définissez un ensemble complet de règles de validation qui régiront le processus de nettoyage des données pour cet ensemble de données.

Produisez votre réponse sous forme de sections étiquetées, une par variable (utilisez des sections clairement intitulées plutôt que des tableaux). Couvrez chaque variable de l'ensemble de données, pas un échantillon. Pour chaque variable, incluez les composants suivants :

1. **Nom et type de variable** — L'identifiant de la variable tel qu'il apparaît dans l'ensemble de données, son type de données (numérique continue, numérique discrète, catégorielle ordinale, catégorielle nominale, binaire, chaîne de caractères, date, heure, géo-coordonnée) et les unités si applicable.

2. **Plage valide ou valeurs autorisées** — Pour les variables numériques, les bornes min et max plausibles (avec justification : par exemple, « âge 0-120 basé sur les limites de la durée de vie humaine »). Pour les variables catégorielles, la liste complète des codes autorisés. Pour les dates, la fenêtre de validité. Pour les chaînes de caractères, les contraintes de format (modèle d'e-mail, modèle de téléphone, modèle d'identifiant).

3. **Obligatoire ou facultatif** — Si la variable doit être non manquante pour chaque enregistrement, ou peut être légitimement vide ; si facultatif, dans quelles conditions une valeur vide est valide.

4. **Règles de dépendance** — Logique de saut de question et exigences conditionnelles, par exemple : « si Q12 = Oui, Q13 doit être non manquant ; si Q12 = Non, Q13 doit être manquant. » Nommez chaque dépendance explicitement.

5. **Vérifications de cohérence inter-variables** — Relations logiques avec d'autres variables, par exemple : « l'âge doit être cohérent avec la date de naissance si les deux sont saisis », « la taille du ménage doit être égale à la somme des adultes et des enfants », « le statut de grossesse doit être Non pour les répondants masculins. »

6. **Modèles d'erreurs connus issus d'enquêtes similaires** — Erreurs courantes de l'enquêteur ou de la saisie de données à surveiller (transposition de chiffres dans les numéros de téléphone, 999/888 comme codes manquants, entrées en double, lectures GPS en dehors de la zone d'enquête).

7. **Indicateur de gravité** — Étiquetez chaque règle comme bloquante (l'enregistrement ne peut pas être utilisé tant qu'il n'est pas corrigé), d'avertissement (à signaler pour examen mais non disqualifiante), ou informative (à enregistrer uniquement).

Terminez par une section de clôture intitulée **Ordre de priorité des règles** qui liste les 10 vérifications de validation les plus critiques pour l'intégrité de cet ensemble de données, avec une justification d'une phrase par vérification. Produisez le résultat sous forme de sections étiquetées structurées en markdown.

Ma description de l'ensemble de données et mes variables d'enquête :
[COLLEZ ICI LA DESCRIPTION DE VOTRE ENSEMBLE DE DONNÉES ET LA LISTE DE VOS VARIABLES]
Étape 1 sur 4