Définition
Fiabilité fait référence à la cohérence et à la répétabilité d'une mesure — si votre outil de collecte de données produit des résultats stables et fiables lorsqu'il est appliqué à plusieurs reprises dans des conditions similaires. Une mesure fiable produit les mêmes (ou très similaires) résultats lorsqu'elle est administrée à plusieurs reprises aux mêmes sujets, lorsqu'elle est utilisée par différents collecteurs de données, ou lorsqu'elle est divisée en formes parallèles.
La fiabilité est une condition préalable à la validité : une mesure peut être fiable sans être valide (mesurer constamment la mauvaise chose), mais elle ne peut pas être valide sans être fiable (des mesures incohérentes ne peuvent pas capturer la réalité avec précision). En pratique, les tests de fiabilité précèdent généralement la collecte de données à grande échelle dans le cadre des assurance qualité des données protocoles.
Pourquoi C'est Important
Dans le travail de M&E, des mesures non fiables sapent chaque décision en aval. Si votre instrument d'enquête produit des résultats différents selon l'enquêteur qui l'administre, ou si votre grille de notation produit des évaluations différentes lorsqu'elle est appliquée par différents évaluateurs, vous ne pouvez pas distinguer les effets du programme de l'erreur de mesure. Cela crée de faux signaux qui mènent à des conclusions incorrectes sur ce qui fonctionne.
Les tests de fiabilité sont particulièrement critiques lorsque :
- Introduction de nouveaux outils — Les indicateurs nouveaux ou les méthodes d'évaluation ont des propriétés de fiabilité inconnues jusqu'à ce qu'ils soient testés
- Formation de nouveaux collecteurs de données — Même les outils bien conçus produisent des résultats incohérents si les collecteurs les appliquent différemment
- Comparaison des données dans le temps ou entre groupes — Sans preuve de fiabilité, les différences observées peuvent refléter une incohérence de mesure plutôt qu'un changement réel
- Prise de décisions à enjeux élevés — Les allocations de financement, les pivots de programme et les décisions de cessation nécessitent la confiance que les mesures sont stables
Investir dans les tests de fiabilité en amont prévient des erreurs coûteuses plus tard, y compris une collecte de données gaspillée sur des instruments défectueux et des conclusions erronées sur le programme qui nuisent à la crédibilité organisationnelle.
En Pratique
La fiabilité se manifeste sous plusieurs formes, chacune testée différemment :
Fiabilité test-retest évalue si un outil produit des résultats stables au fil du temps. Le même instrument est administré aux mêmes sujets à deux occasions (généralement à 1-2 semaines d'intervalle, assez longtemps pour que les répondants ne se souviennent pas des réponses mais assez court pour que le construit sous-jacent n'ait pas changé). Les coefficients de corrélation supérieurs à 0,70 indiquent généralement une stabilité acceptable. Cela est essentiel pour les enquêtes mesurant les attitudes, les perceptions ou d'autres construits qui pourraient véritablement changer.
Fiabilité inter-juges évalue si différents collecteurs de données appliquent un outil de manière cohérente. Deux évaluateurs ou plus évaluent indépendamment les mêmes sujets en utilisant le même instrument (par exemple, deux évaluateurs notant la même documentation de programme, deux enquêteurs menant des observations parallèles). Les métriques incluent le pourcentage d'accord (simple mais gonflé par le hasard) ou le kappa de Cohen/Fleiss' kappa (accord corrigé par le hasard). Les sessions de formation et de calibration améliorent directement la fiabilité inter-juges.
Cohérence interne mesure si les éléments au sein d'une échelle à plusieurs éléments mesurent le même construit. L'alpha de Cronbach est la métrique standard, avec des valeurs supérieures à 0,70 indiquant une cohérence acceptable. C'est la préoccupation de fiabilité la plus couramment abordée lors du développement d'enquêtes — les éléments mal formulés ou ambigus réduisent la cohérence interne et sont généralement révisés ou supprimés.
Fiabilité des formes parallèles teste si deux versions du même instrument produisent des résultats équivalents. Moins courant en M&E mais pertinent lorsque vous avez besoin de versions alternatives (par exemple, des tests pré/post qui ne devraient pas être identiques pour éviter les effets d'entraînement).
En pratique, la fiabilité est rarement un passage/échec binaire. C'est une propriété de votre outil spécifique dans votre contexte spécifique avec vos collecteurs de données spécifiques. Une enquête validée dans un contexte peut montrer une mauvaise fiabilité dans un autre en raison de différences culturelles, de niveaux d'alphabétisation ou de la qualité de la formation des enquêteurs. La surveillance continue des métriques de fiabilité — en particulier l'accord inter-juges pendant la collecte de données — aide à détecter la dérive avant qu'elle ne compromette vos résultats.
Sujets Connexes
- Assurance Qualité des Données — Le cadre plus large pour assurer la qualité de la mesure
- Validité — Si votre outil mesure ce qu'il prétend mesurer
- Outils de Mesure — Instruments d'enquête et méthodes d'évaluation
- Fiabilité Inter-Juges — Focus spécifique sur la cohérence des évaluateurs
- Fiabilité Test-Retest — Focus spécifique sur la stabilité temporelle
Voir aussi : Biais, Erreur de Mesure, Validation d'Instrument