La confidentialité des données au cœur de nos Pipelines d'IA
Nous priorisons le traitement local pour vos données S&E sensibles. Notre approche repose sur une échelle de décision à trois niveaux, une désidentification déterministe lorsque le cloud est requis, et une piste d'audit complète à chaque étape.
Notre échelle de décision à trois niveaux
The three-tier decision ladder
Identifiable and sensitive
Examples
- Interview and focus group transcripts with names or direct identifiers
- Health records, clinical assessments, case-management notes
- Household rosters with addresses or personal details
- Safeguarding reports, whistleblower disclosures
- Confidential donor communications
Processing
Local models only
The pipeline runs entirely on local AI models hosted on your infrastructure or ours under a dedicated data-processing agreement. No data ever leaves the machine it was uploaded to.
Sensitive but de-identifiable
Examples
- Survey datasets with personal fields that can be removed
- Beneficiary tracking records keyed by name or ID
- Program staff feedback with identifying role or location
- Partner contact lists attached to activity records
Processing
Deterministic de-identification, then cloud
A rule-based anonymization step removes and substitutes identifying fields before the depersonalized data is processed by cloud AI models. The original-to-pseudonym mapping stays with you so outputs can be re-identified after processing if needed.
Public or depersonalized
Examples
- Published reports, evaluation documents, literature sets
- Indicator data already aggregated above individual level
- Donor guidance, compliance frameworks, sector standards
- Operational metadata: run logs, processing times, pipeline diagnostics
Processing
Cloud models directly
Where the data is already public or has been depersonalized well above individual level, cloud models process it directly. Most reporting-assembly, research-synthesis, and document-generation work falls in this tier.
Comment nous déterminons le niveau de sensibilité
Trois questions clés déterminent le niveau de traitement :
Les données sont-elles identifiables ? Contiennent-elles des noms, des numéros d'identification, des adresses ou d'autres champs permettant de remonter à un individu ?
Les données sont-elles sensibles ? Leur divulgation publique ou leur mauvaise utilisation pourrait-elle nuire à quelqu'un ? La sensibilité ne se limite pas à l'identifiabilité : un rapport financier publié est identifiable mais non sensible, tandis qu'une note de conseil d'administration privée peut ne pas être identifiable mais rester sensible.
Les champs d'identification peuvent-ils être supprimés de manière réversible ? Certaines données le permettent, d'autres non. Un jeu de données d'enquête avec une colonne de noms et une colonne de réponses peut être traité ainsi. En revanche, une transcription de groupe de discussion où le contenu d'identification est dispersé dans le discours ne peut pas être désidentifiée de manière fiable sans en altérer le sens.
Le niveau de traitement est une propriété des données, et non du pipeline. Un même pipeline peut utiliser le niveau 3 pour les entrées publiées et le niveau 2 pour les brouillons narratifs internes au cours de la même exécution.
Comprendre la désidentification déterministe
La désidentification déterministe implique qu'une étape basée sur des règles supprime ou substitue les champs d'identification avant que les données ne soient transmises à un modèle d'IA cloud. Cette approche « basée sur des règles » n'est pas un jugement d'IA : un modèle est défini pour chaque champ d'identification (nom, e-mail, téléphone, adresse, identifiant) et l'étape applique ce modèle. La couche de confidentialité ne contient pas d'IA et ne peut donc ni halluciner, ni ignorer, ni mal interpréter les données.
En pratique, voici ce qui se passe :
- Les identifiants directs (noms, e-mails, identifiants) sont remplacés par des pseudonymes cohérents, assurant ainsi la cohérence interne du résultat dépersonnalisé.
- Les quasi-identifiants (dates de naissance, lieux exacts, titres de poste pouvant identifier une seule personne) sont généralisés en plages ou régions, si nécessaire.
- La correspondance entre l'original et le pseudonyme est conservée par vous, et non par le fournisseur du modèle cloud ou par nous. Les résultats faisant référence à des pseudonymes peuvent être remappés à des identités réelles de votre côté après traitement.
- Les champs de texte libre susceptibles de contenir des identifiants intégrés sont signalés pour une analyse basée sur des règles et, le cas échéant, acheminés vers un traitement par modèle local.
Aucun modèle d'IA n'est requis pour juger si une information est identifiante. C'est précisément l'avantage. La désidentification basée sur l'IA peut omettre des éléments, substituer de manière incorrecte ou révéler des schémas à travers les substitutions. La désidentification basée sur des règles est, quant à elle, auditable, prévisible et réversible de votre côté.
Réalité technique : les modèles locaux
Les modèles locaux sont, par nature, moins performants que les modèles cloud de pointe. C'est un compromis honnête. Un modèle local de taille moyenne, fonctionnant sur un GPU décent, ne peut pas égaler la qualité brute d'un modèle cloud de premier plan pour des tâches de génération ouvertes.
Cependant, les modèles locaux peuvent gérer la plupart des tâches de données S&E bien délimitées avec une qualité acceptable. Plus précisément, ils excellent dans :
Extraction
Extraire des données structurées à partir de texte, identifier des entités, analyser des champs. Les modèles locaux sont performants car la tâche est clairement délimitée.
Classification
Appliquer un codebook fixe à une transcription, catégoriser les réponses. Les modèles locaux égalent souvent les modèles cloud, car l'espace de réponse est contraint.
Résumé ciblé
"Que dit ce document à propos de X ?" Les modèles locaux gèrent très bien ce type de tâche ciblée.
Les modèles locaux rencontrent des difficultés pour la synthèse ouverte à travers de nombreuses sources, le raisonnement complexe en plusieurs étapes et la rédaction soignée de longs textes. Pour ces cas, l'approche d'anonymisation via le cloud du niveau 2 est disponible.
Le matériel requis pour le travail de niveau 1 évolue en fonction du modèle. La plupart des extractions et classifications s'exécutent confortablement sur un GPU de station de travail modeste. Un travail plus exigeant nécessite un GPU performant. Nous vous aidons à dimensionner le matériel pendant la phase pilote, ou si vous préférez ne pas héberger, nous pouvons exécuter des pipelines de niveau 1 dans un environnement dédié dans le cadre d'un accord de traitement de données.
Lectures complémentaires
Pour en savoir plus sur les mécanismes d'assurance qualité qui vérifient la sortie de chaque étape (schéma, règles, rubriques, tournois), consultez notre section sur l'Assurance Qualité des Pipelines. Pour une vue d'ensemble de notre approche architecturale, retournez à la section Comment nous construisons.
Discutons de votre projet pilote
Parlez-nous de vos données, de leur profil de sensibilité et de vos exigences spécifiques (bailleurs de fonds ou organisationnelles). Nous concevrons un pipeline intégrant la posture de confidentialité la plus adaptée.
Nous contacter