Méthodes d'échantillonnage en S&E

Quand recourir à l'échantillonnage ?

L'échantillonnage est la méthode appropriée lorsque vous devez tirer des conclusions sur une population sans pouvoir ou devoir mesurer chaque unité. Il est particulièrement indiqué dans les situations suivantes :

Le recensement est impraticable: La population de bénéficiaires est trop vaste, dispersée ou fluctuante pour être entièrement recensée dans les limites budgétaires et temporelles.
Une inférence statistique est nécessaire: Vous devez estimer les paramètres de la population (moyennes, proportions) avec une précision et des niveaux de confiance définis.
Des contraintes de ressources: Les limitations budgétaires, humaines ou temporelles rendent impossible une énumération exhaustive.
La qualité prime sur la quantité: Un échantillon plus petit et bien géré peut fournir une meilleure qualité de données qu'un recensement réalisé à la hâte.

L'échantillonnage est moins pertinent dans les cas suivants :

La population est restreinte: Si votre population de bénéficiaires compte moins de 100 à 200 unités, un recensement est souvent plus pratique et élimine l'erreur d'échantillonnage.
Une précision au niveau de l'unité est requise: Si chaque ménage ou bénéficiaire individuel doit être mesuré (par exemple, pour une distribution d'aide ciblée), l'échantillonnage n'est pas adapté.
L'analyse de sous-populations est cruciale: Si des estimations fiables sont nécessaires pour de petits sous-groupes spécifiques (par exemple, les ménages dirigés par des femmes dans un district), un échantillonnage stratifié avec suréchantillonnage ou une autre approche pourrait être nécessaire.

Scénario	Échantillonnage ?	Approche recommandée
5 000 ménages bénéficiaires répartis dans 10 districts	Oui	Échantillonnage en grappes stratifié
80 membres du personnel à former	Non (recensement)	Mesurer tout le personnel
50 000 personnes déplacées dans une vaste région	Oui	Échantillonnage en grappes à deux degrés
Estimations fiables pour 200 ménages dirigés par des femmes	Oui, avec précaution	Stratifié avec suréchantillonnage ou échantillonnage raisonné
Évaluation rapide des besoins dans une zone inaccessible	Oui	Échantillonnage systématique ou raisonné

Comment procéder ?

Un échantillonnage efficace repose sur une séquence structurée, où chaque étape s'appuie sur la précédente.

Définir la population cible. Précisez clairement qui est concerné : limites géographiques, critères d'inclusion/exclusion et unité d'analyse (ménage, individu, installation). Cette définition est cruciale pour l'élaboration de votre base de sondage.
Déterminer la taille de l'échantillon. Calculez l'échantillon minimal requis en fonction de la précision souhaitée (marge d'erreur), du niveau de confiance (généralement 95 %) et de la prévalence attendue des indicateurs clés. N'oubliez pas d'intégrer les effets de plan si vous utilisez l'échantillonnage en grappes (généralement 1,5-2,0) et le taux de non-réponse (généralement 10-20 %).
Sélectionner la méthode d'échantillonnage. Le choix doit être guidé par les caractéristiques de votre population, la base de sondage disponible et vos besoins d'analyse :
- Échantillonnage aléatoire simple (EAS): Chaque unité a une probabilité égale d'être sélectionnée; idéal si vous disposez d'une base complète et que la population est homogène.
- Échantillonnage systématique: Sélection de chaque k-ième unité après un point de départ aléatoire; pratique avec une liste ordonnée.
- Échantillonnage stratifié: Division de la population en sous-groupes (strates) suivie d'un échantillonnage au sein de chaque strate; assure la représentation des sous-groupes clés.
- Échantillonnage en grappes: Échantillonnage de groupes (grappes) puis d'unités au sein de ces grappes; rentable pour les populations dispersées.
- Échantillonnage à plusieurs degrés: Combinaison de différentes méthodes à travers les étapes de sélection; courant dans les enquêtes de grande envergure.
Élaborer la base de sondage. Créez ou vérifiez la liste à partir de laquelle votre échantillon sera tiré. Cette base doit être exhaustive, à jour et précise. Documentez toute lacune ou erreur de couverture connue.
Mettre en œuvre la sélection. Utilisez des générateurs de nombres aléatoires ou des procédures systématiques pour sélectionner vos unités d'échantillonnage. Dans le cas de l'échantillonnage en grappes, documentez clairement la sélection des grappes et les procédures de sélection au sein de celles-ci.
Gérer la non-réponse. Suivez les taux de réponse à chaque étape. Prévoyez des relances et documentez les raisons de la non-réponse. Évitez de remplacer les non-répondants par des sélections de commodité, car cela introduirait un biais.
Documenter l'ensemble du processus. Enregistrez toutes les décisions d'échantillonnage, les sources de la base de sondage, les procédures de sélection et les taux de réponse. Cette documentation est essentielle pour évaluer la validité et permettre la reproductibilité de l'approche.

Éléments clés d'une conception d'échantillonnage robuste

Une conception d'échantillonnage robuste doit inclure les éléments essentiels suivants :

Définition claire de la population: Critères d'inclusion/exclusion explicites, limites géographiques et unité d'analyse, en adéquation avec vos questions d'évaluation.
Justification de la taille de l'échantillon: Calcul documenté expliquant comment la taille de l'échantillon a été déterminée, incluant les hypothèses sur la prévalence, la précision, le niveau de confiance, l'effet de plan et le taux de non-réponse attendu.
Base de sondage: La liste ou le mécanisme concret à partir duquel l'échantillon est tiré, avec la documentation de sa source, de son exhaustivité et de ses limites connues.
Procédure de sélection: Description étape par étape de la sélection des unités, incluant les méthodes de randomisation, les points de départ aléatoires et tout intervalle systématique.
Variables de stratification: Si l'échantillonnage stratifié est utilisé, justification claire des strates et de la méthode d'allocation (proportionnelle ou optimale).
Protocole de sélection des grappes: Pour l'échantillonnage en grappes, méthode documentée pour la sélection des grappes et des unités au sein de celles-ci, incluant toute procédure de probabilité proportionnelle à la taille.
Gestion de la non-réponse: Procédures de suivi planifiées, règles de substitution (ou leur absence) et analyse du biais de non-réponse.
Contrôles de qualité: Étapes de vérification pour s'assurer que la sélection a été exécutée comme prévu, incluant des vérifications ponctuelles et l'examen de la documentation.

Bonnes pratiques en matière d'échantillonnage

Adaptez la méthode d'échantillonnage à la structure de votre population. L'échantillonnage aléatoire simple est pertinent lorsque votre population est homogène et que vous disposez d'une base exhaustive. L'échantillonnage systématique est efficace avec une liste ordonnée, à condition que l'ordre ne soit pas corrélé avec le résultat d'intérêt. L'échantillonnage stratifié pallie les limites de l'échantillonnage aléatoire simple en divisant la population en sous-groupes, puis en sélectionnant aléatoirement des répondants au sein de chaque groupe pour assurer leur représentation.

Privilégiez l'échantillonnage stratifié lorsque l'analyse de sous-groupes est cruciale. Si 38 % de la population est diplômée de l'université et 62 % ne l'est pas, alors 38 % de votre échantillon devraient être sélectionnés aléatoirement dans la strate des diplômés universitaires et 62 % dans celle des non-diplômés. Cette allocation proportionnelle garantit que votre échantillon reflète la structure de la population et fournit des estimations fiables pour chaque sous-groupe.

Documentez toutes les procédures d'échantillonnage dans un protocole détaillé avant le début de la collecte de données. Votre protocole doit spécifier la méthode de sélection des grappes, les procédures d'échantillonnage au sein de celles-ci, les méthodes de randomisation et la gestion de la non-réponse. Cette documentation est essentielle pour évaluer la validité et assurer la reproductibilité.

Au sein des grappes sélectionnées, les unités doivent être choisies par échantillonnage aléatoire simple ou systématique afin de préserver la validité des inférences statistiques. L'utilisation d'une sélection de commodité au sein des grappes invalide les calculs des taux d'erreur et compromet le fondement probabiliste de votre conception.

Lors de l'échantillonnage direct des bénéficiaires en une seule étape, il est préférable d'opter pour l'échantillonnage systématique plutôt que l'échantillonnage aléatoire simple (EAS). L'échantillonnage systématique est plus pratique sur le terrain, requiert moins de matériel et est moins sujet aux biais de sélection lorsque les enquêteurs suivent une procédure claire.

Recourez à des générateurs de nombres aléatoires ou à un échantillonnage systématique avec des points de départ aléatoires pour la sélection des grappes et des unités, afin d'assurer une véritable randomisation. La sélection manuelle introduit un biais inconscient. Utilisez des outils de randomisation validés et documentez la graine aléatoire ou le point de départ.

Compensez le biais de non-réponse par le suréchantillonnage. Sélectionnez délibérément des cas supplémentaires présentant des caractéristiques connues similaires à ceux qui ont refusé de participer, puis appliquez des pondérations de réponse lors de l'analyse. Cette approche contribue à maintenir la précision lorsque la non-réponse est différentielle entre les sous-groupes.

Trouvez une méthode de sélection d'échantillons qui soit pratique, respecte votre budget et évite les principales sources de biais. La méthode d'échantillonnage idéale est inutile si elle ne peut être mise en œuvre. Équilibrez la rigueur statistique avec les réalités du terrain, mais ne sacrifiez jamais la randomisation au profit de la commodité.

Pièges courants à éviter

Appliquer les formules d'échantillonnage aléatoire simple aux données en grappes. L'échantillonnage en grappes introduit des effets de plan qui augmentent la variance. L'application des formules d'EAS aux données en grappes sous-estime gravement les erreurs standard et produit des intervalles de confiance artificiellement étroits, menant à une fausse précision dans les estimations. Tenez toujours compte de l'effet de plan dans le calcul de la taille de votre échantillon et utilisez des erreurs standard robustes aux grappes lors de l'analyse.

Utiliser des bases de sondage obsolètes ou inexactes. Les erreurs de couverture incluent les omissions, les inclusions erronées, les doublons et les erreurs de classification des unités dans la base de sondage. L'utilisation d'une liste de bénéficiaires obsolète, par exemple, entraîne un biais de couverture et des échantillons non représentatifs, quelle que soit la qualité de l'exécution de la procédure d'échantillonnage. Vérifiez votre base de sondage par rapport aux registres actuels du programme et documentez les lacunes connues.

Substituer les ménages ou les grappes non-répondants. Le remplacement des non-répondants par des sélections de commodité introduit un biais inconnu et invalide les calculs des taux d'erreur. Ne rapportez et n'analysez que les unités réellement échantillonnées. Si le taux de non-réponse est élevé, documentez-le et effectuez une analyse du biais de non-réponse plutôt que de procéder à des substitutions.

Adopter des stratégies d'échantillonnage invalides. Certaines approches sapent fondamentalement l'échantillonnage probabiliste : sélectionner ses amis et sa famille, les enquêtes web où les répondants s'auto-sélectionnent, ou les enquêtes téléphoniques où les répondants doivent appeler. Ces méthodes de commodité introduisent un biais de sélection grave et ne peuvent pas étayer l'inférence statistique sur une population.

Sous-estimer les risques de biais liés à l'échantillonnage en grappes. La méthode d'échantillonnage en grappes est potentiellement biaisée, car certains ménages peuvent ne pas être disponibles ou disposés à répondre à une enquête. Cette non-réponse au sein des grappes peut introduire un biais si les non-répondants diffèrent systématiquement des répondants. Prévoyez un suivi adéquat et documentez les taux de réponse au niveau des grappes.

Exemples concrets

Moyens de subsistance agricoles en Afrique de l'Est (échantillonnage en grappes stratifié)

Un programme de résilience agricole ciblant 50 000 ménages répartis dans 10 districts nécessitait des données de situation de référence sur la sécurité alimentaire. L'équipe a opté pour un échantillonnage en grappes stratifié à deux degrés : premièrement, les districts ont été stratifiés par zone agro-écologique ; deuxièmement, 50 grappes ont été sélectionnées avec une probabilité proportionnelle à la taille ; troisièmement, 20 ménages par grappe ont été choisis par échantillonnage systématique avec un point de départ aléatoire. La conception a intégré un effet de plan de 1,5 et un taux de non-réponse attendu de 15 %. Cette approche a permis d'obtenir un échantillon représentatif de 850 ménages tout en maîtrisant les coûts de terrain. La stratification a garanti que chaque zone agro-écologique était représentée proportionnellement, permettant des comparaisons fiables au niveau de la zone.

Programme WASH en asie du sud (échantillonnage systématique)

Un programme d'eau et d'assainissement desservant 3 000 ménages bénéficiaires a eu recours à l'échantillonnage systématique pour son évaluation à mi-parcours. L'équipe a obtenu une liste ordonnée des ménages à partir des registres du programme, a calculé un intervalle d'échantillonnage de 10 (3 000 / 300 taille de l'échantillon), a sélectionné un point de départ aléatoire entre 1 et 10, puis a choisi chaque 10e ménage. Cette approche s'est avérée pratique pour les équipes de terrain, ne nécessitant qu'une liste imprimée et un générateur de nombres aléatoires, et a permis d'atteindre un taux de réponse de 92 %. La liste était ordonnée par village et date d'enregistrement des ménages, et l'équipe a vérifié que cet ordre n'était pas corrélé avec les résultats d'accès à l'eau.

Réponse d'urgence en Afrique de l'Ouest (LQAS pour la classification)

Une évaluation de la sécurité alimentaire lors d'une crise de déplacement a eu recours à l'échantillonnage par acceptation de lots (LQAS) pour classer les districts comme "acceptables" ou "inacceptables" en fonction des taux de malnutrition aiguë. Avec 19 ménages par district et une règle de décision de 3 cas ou moins, l'équipe a pu classer chaque district avec une confiance de 90 % quant à savoir si la malnutrition dépassait le seuil de 15 %. Cette approche a privilégié une classification rapide pour guider l'allocation des ressources, au détriment d'une estimation précise de la prévalence. La conception était optimale pour le contexte de décision : identifier les districts nécessitant une intervention d'urgence par rapport à ceux qui étaient stables.

Comparaison des méthodes

Les méthodes d'échantillonnage varient dans leurs hypothèses, leurs exigences et leurs compromis :

Caractéristique	Échantillonnage aléatoire simple	Échantillonnage systématique	Échantillonnage stratifié	Échantillonnage en grappes
Exigence de la base de sondage	Liste complète	Liste ordonnée	Liste complète avec étiquettes de strates	Liste de grappes
Efficacité statistique	De base	Similaire à l'EAS	Plus efficace que l'EAS	Moins efficace (effet de plan)
Praticité sur le terrain	Faible	Élevée	Moyenne	Élevée
Analyse de sous-groupes	Possible mais variable	Possible mais variable	Excellente	Nécessite une post-stratification
Coût pour population dispersée	Élevé	Élevé	Élevé	Faible
Idéal lorsque	Population petite et homogène	Liste ordonnée disponible	Estimations de sous-groupes nécessaires	Population importante et dispersée

Indicateurs clés

12 indicateurs, issus de 4 cadres de bailleurs de fonds (USAID, FEWS NET, CHS Alliance, Global Food Security Cluster), sont pertinents pour la conception et la mise en œuvre de l'échantillonnage :

Qualité de la méthode d'échantillonnage: "Proportion d'enquêtes utilisant des méthodes d'échantillonnage probabilistes" (USAID)
Adéquation de la taille de l'échantillon: "Taille de l'échantillon justifiée par la précision et le niveau de confiance souhaités" (FEWS NET)
Taux de réponse: "Taux de non-réponse inférieur à 20 % pour les enquêtes auprès des ménages" (CHS Alliance)
Qualité de la base de sondage: "Base de sondage documentée et vérifiée par rapport aux registres du programme" (Global Food Security Cluster)

Contexte de la proposition

Les décisions d'échantillonnage dans les propositions de projet sont cruciales, car elles déterminent la crédibilité de l'évaluation envisagée et le budget nécessaire à sa mise en œuvre. Les pièges courants dans les propositions incluent : (a) des tailles d'échantillon avancées sans ajustement de l'effet de plan pour l'échantillonnage en grappes (le "n" proposé est sous-dimensionné avant le début du travail de terrain) ; (b) un échantillonnage non probabiliste qualifié de représentatif (l'échantillonnage raisonné ou de commodité ne peut pas produire d'estimations représentatives ; les présenter comme telles est un signal d'alarme) ; (c) des tailles d'échantillon trop petites pour soutenir la désagrégation prévue (le "n" total est suffisant pour l'estimation principale, mais le "n" des sous-groupes ne permet pas des comparaisons fiables par âge et par sexe) ; (d) l'absence de marge pour la non-réponse (le budget couvre exactement l'échantillon calculé, mais l'attrition sur le terrain réduit l'échantillon effectif en dessous du seuil) ; (e) une méthode d'échantillonnage choisie sans justification explicite au regard de la question d'évaluation. À associer avec désagrégation et échantillonnage en grappes le cas échéant.

Ressources complémentaires

Conception de la situation de référence: Approche exhaustive de la conception d'étude, incluant l'échantillonnage.
Conception d'enquête: Méthodologie d'enquête complète, de la conception à la mise en œuvre, incluant l'échantillonnage.
Sélection des indicateurs: Choisir des indicateurs en adéquation avec les capacités d'échantillonnage.
Assurance qualité des données: S'assurer que l'échantillonnage et la collecte de données respectent les standards de qualité.
Données quantitatives: Types de données et méthodes de collecte.
Échantillonnage aléatoire: Méthodes de sélection probabilistes.
Échantillonnage stratifié: Conception d'échantillonnage axée sur la représentation des sous-groupes.
Échantillonnage raisonné: Alternative non probabiliste pour des contextes spécifiques.