Les plans quasi-expérimentaux (PQE) en S&E : méthodes et applications

Quand recourir aux plans quasi-expérimentaux (PQE) ?

Les plans quasi-expérimentaux (PQE) se positionnent entre les dispositifs expérimentaux (ESS) et les évaluations purement descriptives. Ils visent à répondre à la question « Le programme a-t-il réellement causé ce changement ? » en l'absence d'affectation aléatoire. Ces plans sont particulièrement pertinents lorsque :

La randomisation est irréalisable : des considérations éthiques, des contraintes opérationnelles ou une opposition politique rendent la randomisation impossible, mais une attribution causale reste indispensable.
Un groupe de comparaison naturel est disponible : les critères d'éligibilité du programme, un déploiement progressif ou des frontières géographiques définissent des groupes qui ne diffèrent que par leur exposition au programme.
Des données administratives sont accessibles : les registres gouvernementaux, les dossiers de santé ou les données d'inscription scolaire facilitent l'appariement rétrospectif et la comparaison.
Une expérience naturelle s'est manifestée : un changement de politique, un seuil d'éligibilité ou un choc externe a généré une variation quasi-aléatoire de l'exposition au programme, qui peut être exploitée.
Les bailleurs de fonds exigent des preuves d'attribution : des organismes comme l'USAID, l'USDA et la Banque Mondiale reconnaissent les plans quasi-expérimentaux crédibles comme des preuves valides de l'efficacité d'un programme.

Les PQE ne sont pas adaptés si aucun groupe de comparaison crédible ne peut être constitué, si les hypothèses du plan ne peuvent être testées ou justifiées, ou si les questions de processus (le « pourquoi » et le « comment ») priment sur l'attribution causale (dans ces situations, privilégiez l'Analyse de Contribution ou le Traçage de Processus).

Scénario	Utiliser PQE ?	Meilleure Alternative
Obstacle éthique ou logistique à l'ESS	Oui	-
Un seuil d'éligibilité naturel est défini	Oui (RD)	-
Déploiement progressif envisageable	Oui (DiD)	-
Aucun groupe de comparaison réalisable	Non	Analyse de Contribution
Les questions de processus sont prioritaires	Non	Traçage de Processus
Le bailleur exige des preuves d'impact avec une situation de référence	Non	ESS

Fonctionnement des plans quasi-expérimentaux

Il n'existe pas un unique plan quasi-expérimental ; le PQE regroupe une famille d'approches, chacune adaptée à des contextes de données et des hypothèses spécifiques. Les quatre principaux types de plans sont :

1. La méthode différence de différences (DiD)

Elle compare l'évolution des résultats dans le temps au sein d'un groupe de traitement à celle d'un groupe de comparaison n'ayant pas bénéficié du programme. L'estimation DiD correspond à la « double différence » : (post-traitement − pré-traitement) moins (post-comparaison − pré-comparaison). Hypothèse clé : en l'absence du programme, les deux groupes auraient suivi des tendances similaires (« tendances parallèles »). Nécessite des données de panel pour les deux groupes, recueillies à la situation de référence et lors du suivi.

2. L'Appariement par score de propension (PSM)

Cette méthode consiste à apparier chaque participant au programme avec un ou plusieurs non-participants statistiquement similaires sur la base de caractéristiques observées. Les résultats sont ensuite comparés entre ces paires appariées. L'estimation PSM représente l'« effet moyen du traitement sur les traités » (ATT). Hypothèse clé : toutes les variables influençant à la fois la participation au programme et les résultats sont observables et intégrées au modèle d'appariement.

Pour mettre en œuvre le PSM : il faut collecter des données de situation de référence sur un large éventail de caractéristiques pour les participants et les non-participants ; estimer un modèle de régression logistique prédisant la participation au programme ; utiliser les probabilités prédites (scores de propension) pour apparier les participants et les non-participants ; vérifier l'équilibre des groupes ; puis comparer les résultats.

3. La discontinuité de régression (RD)

Elle exploite un seuil dans un critère d'éligibilité continu pour comparer les participants situés juste au-dessus du seuil (éligibles) à ceux juste en dessous (non éligibles). L'estimation RD ne s'applique qu'aux individus proches du seuil. Hypothèse clé : les unités ne peuvent pas manipuler précisément leur score pour se positionner juste au-dessus ou en dessous du seuil. Nécessite un échantillon important autour du seuil et une variable de classement continue.

4. Les séries temporelles interrompues (STI)

Cette méthode analyse une longue série temporelle des résultats avant et après l'introduction du programme, en contrôlant les tendances préexistantes. Elle est utile lorsqu'une politique ou un programme unique est introduit à un moment précis et que les données administratives offrent de nombreux points de mesure avant l'intervention. Elle peut fonctionner sans groupe de comparaison, mais son inclusion renforce la robustesse de l'analyse.

Éléments clés des plans quasi-expérimentaux

Groupe de comparaison : un groupe qui ne bénéficie pas du programme et dont les résultats peuvent être comparés à ceux des participants.
Données de situation de référence pour les deux groupes : mesures des résultats et des covariables avant le programme, pour les groupes de traitement et de comparaison.
Instruments identiques ou comparables : les mêmes outils d'enquête doivent être utilisés pour les deux groupes à chaque point de collecte de données.
Tests d'équilibre : des tests statistiques confirmant que les groupes de traitement et de comparaison sont comparables à la situation de référence sur les caractéristiques observées.
Tests des hypothèses du plan : des tests explicites des hypothèses d'identification clés (tendances parallèles, support commun pour le PSM, tests de manipulation du seuil pour le RD).
Analyse de sensibilité : vérifier si l'estimation de l'effet du traitement varie selon des spécifications de modèle alternatives.
Mesures supplémentaires invariantes dans le temps : variables de situation de référence dont on n'attend pas de changement, incluses pour améliorer la qualité de l'appariement.

Bonnes pratiques

Maximiser la comparabilité grâce à des instruments identiques. Les données des groupes de traitement et de comparaison doivent être recueillies avec les mêmes instruments d'enquête, au même moment, par des enquêteurs identiques (ou ayant une formation équivalente). Toute divergence dans la collecte de données compromet la comparaison.

Tester et documenter l'équilibre, au-delà du simple appariement. L'appariement par score de propension ne s'arrête pas à la création des paires ; il est impératif de vérifier si les groupes appariés sont effectivement équilibrés sur les variables clés et d'en rapporter les résultats. Des échantillons appariés déséquilibrés signalent que le modèle d'appariement doit être révisé.

Pré-spécifier l'analyse principale. Il est essentiel de documenter la méthode d'analyse envisagée, les covariables et la spécification des résultats avant toute collecte de données. Cette démarche prévient la sélection de modèles post-hoc qui pourrait artificiellement gonfler les taux de faux positifs.

Intégrer les variables invariantes dans le temps lors de l'appariement. L'ajout de variables stables dans le temps (par ex. la propriété foncière, l'appartenance ethnique, la composition du ménage à la situation de référence) améliore la qualité de l'appariement et réduit les biais.

Présenter honnêtement les limites du plan. Chaque PQE repose sur des hypothèses qui ne peuvent être directement testées. Un rapport d'évaluation crédible doit énoncer ces hypothèses clairement et justifier leur pertinence au regard du contexte.

Pièges à éviter

Considérer le PSM comme suffisant sans test d'équilibre. L'appariement par score de propension ne garantit pas l'équilibre des groupes. Il est impératif de toujours tester l'équilibre des covariables après l'appariement et de réajuster si l'équilibre est insuffisant.

Négliger l'hypothèse des tendances parallèles en diD. Les estimations par différence de différences sont invalides si les groupes de traitement et de comparaison présentaient des tendances pré-programme divergentes. Il convient de tester les tendances parallèles en utilisant les données pré-programme, si elles sont disponibles.

Employer un groupe de comparaison géographiquement proche sans contrôler les effets de débordement. Si les ménages du groupe de comparaison peuvent observer ou interagir avec les ménages de traitement, cette contamination biaise l'estimation à la baisse, vers zéro.

Prétendre qu'un PQE est « aussi robuste qu'un ESS ». Les plans quasi-expérimentaux reposent sur des hypothèses supplémentaires que les ESS n'exigent pas. Il est crucial d'énoncer clairement le plan et ses hypothèses, sans surestimer la validité causale.

Réaliser une fouille de données rétrospective (data mining). L'utilisation d'ensembles de données existants sans un plan d'analyse pré-spécifié peut conduire à une sélection de modèles produisant des faux positifs. Il est recommandé de pré-enregistrer l'analyse chaque fois que possible.

Exemples concrets

Sécurité alimentaire en amérique latine. Un programme financé par l'USDA au Honduras a eu recours à l'appariement par score de propension pour évaluer son impact sur les scores de sécurité alimentaire des ménages. Les données de situation de référence comprenaient 40 variables relatives à la démographie des ménages, aux actifs et aux pratiques agricoles, pour 2 400 ménages de traitement et 2 400 ménages de comparaison. Après appariement, les différences de moyennes standardisées pour les 40 variables sont descendues en dessous de 0,10, signe d'un bon équilibre. L'estimation DiD à l'évaluation finale a révélé une amélioration de 0,6 écart-type des scores de sécurité alimentaire parmi les ménages de traitement par rapport aux groupes de comparaison appariés.

Éducation en Afrique de l'Est. Un programme d'amélioration scolaire au Kenya a employé la discontinuité de régression, en se basant sur les scores de pauvreté des districts qui déterminaient l'éligibilité au programme. Les écoles dont le score se situait juste en dessous du seuil d'éligibilité (éligibles) ont été comparées à celles juste au-dessus (non éligibles). L'analyse des résultats aux examens nationaux a mis en évidence une amélioration de 3,8 points de pourcentage des taux de réussite parmi les écoles éligibles par rapport aux écoles non éligibles au seuil, sans qu'aucune manipulation des scores ne soit détectée à proximité du seuil.

Santé en asie du sud. Un programme de santé communautaire financé par le DFID au Bangladesh a eu recours à l'analyse de séries temporelles interrompues pour les taux mensuels d'accouchements en établissement dans 120 sous-districts d'intervention, avec 60 sous-districts de comparaison appariés servant de série de comparaison. Le modèle STI a estimé une augmentation de 12 points de pourcentage des taux d'accouchements en établissement attribuable au programme, au-delà de la tendance préexistante, l'effet s'étant maintenu pendant 24 mois après son introduction.

Comparaison avec d'autres approches

Design	Randomisation	Contrefactuel	Hypothèse clé
PQE (Appariement par score de propension)	Aucune	Construit via appariement	Tous les facteurs de confusion observés
PQE (Différence de différences)	Aucune	Tendances parallèles	Tendance commune en l'absence de programme
PQE (Discontinuité de régression)	Aucune	Discontinuité de seuil	Pas de manipulation du score
ESS (Expérimental)	Aléatoire	Groupe de contrôle direct	Intégrité de la randomisation
Analyse de Contribution	Aucune	Aucun	Récit causal plausible

Indicateurs clés

38 indicateurs sont disponibles à travers les cadres de l'USAID, de la Banque Mondiale, de l'USDA et de 3ie. Voici quelques exemples clés :

Différence des moyennes standardisées des variables clés de situation de référence entre les groupes de traitement et de comparaison (cible < 0,10).
Estimation de l'effet du traitement par différence de différences, avec intervalle de confiance à 95 %.
Pourcentage de support commun (proportion du groupe de traitement ayant des unités de comparaison appariées dans le PSM).
Nombre de périodes pré-programme utilisées pour tester l'hypothèse des tendances parallèles.

Outils associés

Planificateur d'Évaluation : pour structurer la collecte de données de situation de référence et la sélection du groupe de comparaison.
Bibliothèque d'Indicateurs : pour identifier les mesures de résultats appropriées à votre évaluation.

Sujets complémentaires

Évaluation d'Impact : la catégorie plus large englobant les ESS et les plans quasi-expérimentaux.
Plan de Situation de Référence : pour la collecte des données permettant l'analyse quasi-expérimentale.
Méthodes d'Échantillonnage : pour savoir comment échantillonner les populations de traitement et de comparaison.
Signification Statistique : pour interpréter les valeurs p et les intervalles de confiance dans l'analyse d'évaluation.
Attribution vs. Contribution : pour comprendre quand le PQE est approprié par rapport à l'analyse de contribution.