Privacidad de Datos en Pipelines de IA

Priorizamos el procesamiento local para datos sensibles de M&E. Implementamos una escalera de decisión de tres niveles, desidentificación determinista cuando se requiere procesamiento en la nube y un registro de auditoría detallado en cada etapa.

La escalera de decisión de tres niveles

The three-tier decision ladder

Identifiable and sensitive

Examples

Interview and focus group transcripts with names or direct identifiers
Health records, clinical assessments, case-management notes
Household rosters with addresses or personal details
Safeguarding reports, whistleblower disclosures
Confidential donor communications

Processing

Local models only

The pipeline runs entirely on local AI models hosted on your infrastructure or ours under a dedicated data-processing agreement. No data ever leaves the machine it was uploaded to.

Your data

Local model

Output

Sensitive but de-identifiable

Examples

Survey datasets with personal fields that can be removed
Beneficiary tracking records keyed by name or ID
Program staff feedback with identifying role or location
Partner contact lists attached to activity records

Processing

Deterministic de-identification, then cloud

A rule-based anonymization step removes and substitutes identifying fields before the depersonalized data is processed by cloud AI models. The original-to-pseudonym mapping stays with you so outputs can be re-identified after processing if needed.

Your data

De-identify

Cloud model

Output

Public or depersonalized

Examples

Published reports, evaluation documents, literature sets
Indicator data already aggregated above individual level
Donor guidance, compliance frameworks, sector standards
Operational metadata: run logs, processing times, pipeline diagnostics

Processing

Cloud models directly

Where the data is already public or has been depersonalized well above individual level, cloud models process it directly. Most reporting-assembly, research-synthesis, and document-generation work falls in this tier.

Your data

Cloud model

Output

Criterios para determinar el nivel de sensibilidad

El nivel se determina a partir de tres preguntas clave:

¿Los datos son identificables? ¿Contienen nombres, números de identificación, direcciones u otros campos que puedan vincularse a una persona?

¿Los datos son sensibles? ¿Podrían causar daño si se hicieran públicos o se usaran de forma indebida? La sensibilidad no se limita a la identificabilidad: un informe financiero publicado es identificable pero no sensible; un memorándum privado de la junta directiva puede no ser identificable, pero sigue siendo sensible.

¿Es posible eliminar los campos identificativos de forma reversible? Algunos datos sí lo permiten, otros no. Un conjunto de datos de encuesta con columnas de nombre y respuesta puede desidentificarse. Sin embargo, una transcripción de grupo focal donde el contenido identificativo está disperso en el discurso no puede desidentificarse de forma fiable sin perder su significado.

El nivel de sensibilidad es una propiedad inherente de los datos, no del pipeline. Un mismo pipeline puede utilizar el Nivel 3 para entradas publicadas y el Nivel 2 para borradores narrativos internos en una misma ejecución.

Comprendiendo la desidentificación determinista

La desidentificación determinista implica que un paso basado en reglas elimina o sustituye los campos identificativos antes de que los datos lleguen a un modelo de IA en la nube. Al ser un proceso basado en reglas, no implica un juicio de IA: se define un patrón para cada campo identificativo (nombre, correo electrónico, teléfono, dirección, ID) y el paso aplica dicho patrón. La capa de privacidad no contiene IA y, por lo tanto, no puede generar alucinaciones, omitir información o malinterpretarla.

En la práctica, esto significa:

Los identificadores directos (nombres, correos electrónicos, IDs) se reemplazan por seudónimos consistentes para que el resultado despersonalizado mantenga la coherencia interna.
Los cuasi-identificadores (fechas de nacimiento, ubicaciones exactas, títulos de rol que podrían identificar a una única persona) se generalizan a rangos o regiones según sea necesario.
El mapeo entre el original y el seudónimo es retenido por usted, no por el proveedor del modelo en la nube ni por nosotros. Los resultados que se refieren a seudónimos pueden volver a mapearse a identidades reales de su lado después del procesamiento.
Los campos de texto libre que puedan contener identificadores incrustados se marcan para un escaneo basado en reglas y, cuando se identifican, se dirigen al procesamiento con modelos locales.

Ninguno de estos pasos requiere que un modelo de IA juzgue si algo es identificativo. Esa es precisamente la ventaja. La desidentificación basada en IA puede pasar por alto elementos, sustituir incorrectamente o revelar patrones entre sustituciones. En cambio, la desidentificación basada en reglas es auditable, predecible y reversible por su parte.

Realidad del hardware: Capacidades de los modelos locales

Los modelos locales son, por naturaleza, menos potentes que los modelos de nube de vanguardia. Este es un compromiso honesto. Un modelo local de tamaño medio que se ejecuta en una GPU decente no puede igualar la calidad bruta de un modelo de nube líder en tareas de generación abierta.

Sin embargo, los modelos locales pueden manejar la mayoría de las tareas de datos de M&E bien definidas con una calidad aceptable. Específicamente:

Extracción de información

Extraer datos estructurados de texto, identificar entidades y analizar campos. Los modelos locales funcionan eficazmente porque la tarea está bien delimitada.

Clasificación de datos

Aplicar un libro de códigos fijo a una transcripción, categorizar respuestas. Los modelos locales a menudo igualan el rendimiento de los modelos en la nube porque el espacio de respuestas es restringido.

Resumen dirigido

¿Qué información específica contiene este documento sobre X? Los modelos locales gestionan esto eficazmente porque la tarea es muy específica.

Los modelos locales presentan dificultades en la síntesis abierta a partir de múltiples fuentes, el razonamiento complejo de varios pasos y la redacción pulida de documentos extensos. Para estos casos, la ruta de anonimización y procesamiento en la nube del Nivel 2 es la solución adecuada.

El hardware necesario para el trabajo del Nivel 1 escala según el modelo. La mayoría de las extracciones y clasificaciones se ejecutan cómodamente en una GPU de estación de trabajo modesta. Para tareas más exigentes, se requiere una GPU más potente. Le asistimos en el dimensionamiento del hardware durante el piloto, o si prefiere no alojar, podemos ejecutar pipelines del Nivel 1 en un entorno dedicado bajo un acuerdo de procesamiento de datos.

Lectura relacionada

Para conocer los mecanismos de garantía de calidad que verifican la salida de cada paso (esquema, reglas, rúbricas, torneos), consulte nuestra sección sobre Garantía de Calidad del Pipeline. Para una visión completa de nuestro enfoque arquitectónico, regrese a Cómo Construimos.

Garantía de Calidad del Pipeline

Esquema, reglas, rúbricas, torneos.

Volver a Cómo Construimos

El enfoque arquitectónico completo.

Hablemos de un Piloto

Cuéntenos sobre sus datos, su perfil de sensibilidad y los requisitos de sus donantes u organización. Diseñaremos un pipeline con la postura de privacidad adecuada, integrada desde el inicio.

Contáctenos