Fiabilité des mesures en S&E

Définition

La fiabilité désigne la cohérence et la répétabilité d'une mesure. Elle évalue si votre outil de collecte de données produit des résultats stables et fiables lorsqu'il est appliqué de manière répétée dans des conditions similaires. Une mesure est considérée comme fiable si elle génère des résultats identiques (ou très proches) lorsqu'elle est administrée plusieurs fois aux mêmes sujets, utilisée par différents collecteurs de données, ou divisée en formes parallèles.

La fiabilité est un prérequis essentiel à la validité : une mesure peut être fiable sans être valide (elle mesure constamment la mauvaise chose), mais elle ne peut pas être valide sans être fiable (des mesures incohérentes ne peuvent pas refléter la réalité avec précision). En pratique, les tests de fiabilité précèdent généralement la collecte de données à grande échelle, s'inscrivant dans les protocoles d'assurance qualité des données.

Pourquoi c'est important

Dans le domaine du S&E, des mesures non fiables compromettent chaque décision ultérieure. Si votre instrument d'enquête génère des résultats variables selon l'enquêteur qui l'administre, ou si votre grille de notation produit des évaluations différentes lorsqu'elle est utilisée par divers évaluateurs, il devient impossible de distinguer les effets réels du programme de la simple erreur de mesure. Cela engendre de faux signaux, conduisant à des conclusions erronées sur l'efficacité des interventions.

Les tests de fiabilité sont particulièrement cruciaux dans les situations suivantes :

Lors de l'introduction de nouveaux outils : Les indicateurs nouveaux ou les méthodes d'évaluation ont des propriétés de fiabilité inconnues jusqu'à ce qu'ils soient testés.
Lors de la formation de nouveaux collecteurs de données : Même les outils bien conçus produisent des résultats incohérents si les collecteurs les appliquent différemment.
Lors de la comparaison de données dans le temps ou entre différents groupes : Sans preuve de fiabilité, les différences observées peuvent refléter une incohérence de mesure plutôt qu'un changement réel.
Lors de la prise de décisions à fort enjeu : Les allocations de financement, les ajustements de programme et les décisions de cessation nécessitent la confiance que les mesures sont stables.

Investir dans les tests de fiabilité en amont permet de prévenir des erreurs coûteuses par la suite, notamment le gaspillage de ressources pour la collecte de données avec des instruments défectueux et l'émission de conclusions erronées sur le programme, ce qui nuit à la crédibilité de l'organisation.

En pratique

La fiabilité se présente sous diverses formes, chacune nécessitant une approche de test spécifique :

La fiabilité test-retest évalue la stabilité d'un outil de mesure dans le temps. Le même instrument est administré aux mêmes sujets à deux reprises (généralement à 1 ou 2 semaines d'intervalle, une durée suffisante pour éviter que les répondants ne se souviennent de leurs réponses, mais assez courte pour que le construit sous-jacent n'ait pas évolué). Des coefficients de corrélation supérieurs à 0,70 indiquent généralement une stabilité acceptable. Cette forme de fiabilité est cruciale pour les enquêtes mesurant les attitudes, les perceptions ou d'autres construits susceptibles de changer naturellement.

La fiabilité inter-juges (ou inter-évaluateurs) vérifie la cohérence avec laquelle différents collecteurs de données appliquent un même outil. Deux évaluateurs ou plus évaluent indépendamment les mêmes sujets en utilisant le même instrument (par exemple, deux évaluateurs notant la même documentation de programme, deux enquêteurs menant des observations parallèles). Les métriques courantes incluent le pourcentage d'accord (simple, mais potentiellement gonflé par le hasard) ou le kappa de Cohen/kappa de Fleiss (qui corrige l'accord dû au hasard). Les sessions de formation et de calibration contribuent directement à améliorer la fiabilité inter-juges.

La cohérence interne mesure si les différents éléments d'une échelle multi-éléments évaluent le même construit. L'alpha de Cronbach est la métrique standard, avec des valeurs supérieures à 0,70 indiquant une cohérence acceptable. C'est la forme de fiabilité la plus fréquemment prise en compte lors du développement d'enquêtes ; des éléments mal formulés ou ambigus réduisent la cohérence interne et sont généralement révisés ou supprimés.

La fiabilité des formes parallèles vérifie si deux versions différentes du même instrument produisent des résultats équivalents. Moins courante en S&E, elle est néanmoins pertinente lorsque des versions alternatives sont nécessaires (par exemple, pour des tests pré/post qui ne doivent pas être identiques afin d'éviter les effets d'apprentissage).

En pratique, la fiabilité est rarement une question binaire de succès ou d'échec. Il s'agit d'une propriété intrinsèque à votre outil, à votre contexte et à vos collecteurs de données spécifiques. Une enquête validée dans un contexte donné peut ainsi présenter une faible fiabilité dans un autre, en raison de différences culturelles, de niveaux d'alphabétisation ou de la qualité de la formation des enquêteurs. Une surveillance continue des métriques de fiabilité, en particulier l'accord inter-juges durant la collecte de données, permet de détecter toute dérive avant qu'elle ne compromette la validité de vos résultats.

Sujets connexes

Assurance qualité des données : Le cadre général pour garantir la qualité des mesures.
Validité : La capacité de votre outil à mesurer ce qu'il est censé mesurer.
Outils de Mesure : Instruments d'enquête et méthodes d'évaluation.
Fiabilité Inter-Juges : Focus spécifique sur la cohérence entre évaluateurs.
Fiabilité Test-Retest : Focus spécifique sur la stabilité dans le temps.

Voir aussi : Biais, Erreur de mesure, Validation des instruments