RAG empresarial seguro: arquitectura, fugas de datos y EU AI Act
Hablar de RAG empresarial seguro en 2026 ya no es una cuestión técnica de elegir vector database y embeddings. Es una cuestión de gobernanza, de fugas de datos y de cumplimiento del EU AI Act. Las arquitecturas de Retrieval Augmented Generation se han convertido en el caballo de batalla para conectar LLMs con conocimiento corporativo, y son también el principal vector de exposición de información confidencial cuando se implementan sin un diseño defensivo desde el origen.
Qué entendemos por RAG empresarial seguro
Un sistema RAG empresarial seguro es aquel que combina recuperación de información interna con generación de respuestas de un LLM garantizando: trazabilidad de la fuente, control de acceso heredado del repositorio original, ausencia de fuga al modelo externo y cumplimiento documental con el EU AI Act y RGPD. Es decir, no basta con que “funcione bien” en demo: tiene que sobrevivir a una auditoría.
Arquitectura recomendada de un RAG empresarial seguro
Los pilotos que han pasado a producción sin sustos comparten un patrón arquitectónico que se puede resumir en seis capas. Las describo en orden de flujo de datos:
- Capa de ingesta gobernada: solo entran documentos clasificados, con etiquetas de confidencialidad y propietario.
- Pipeline de preprocesado con anonimización opcional de PII y redacción de campos sensibles.
- Vector store con permisos heredados del documento original (row-level security o filtros por metadata).
- Orquestador que valida identidad del usuario y restringe la recuperación a documentos a los que tiene acceso.
- LLM ejecutado en entorno controlado: bien on-premise, bien en una región UE con contrato de no entrenamiento.
- Capa de auditoría que registra prompts, fuentes recuperadas y respuesta para revisión posterior.
Si esta arquitectura se conecta con sistemas internos, conviene revisar también la disciplina de MCP en proyectos empresariales para evitar superficie de ataque innecesaria.
Riesgos de fuga de datos más habituales
He auditado RAGs en producción que filtraban información confidencial por errores sutiles y repetidos. Los más frecuentes son: indexar documentos sin respetar permisos del repositorio origen, usar embeddings de proveedor sin contrato adecuado, no aplicar filtrado por usuario en la consulta vectorial y permitir que el LLM resuma fragmentos a los que el usuario no tendría acceso directo.
Cumplimiento del EU AI Act en sistemas RAG
Un RAG corporativo entra normalmente en categoría de riesgo limitado, pero puede escalar a alto riesgo cuando se usa en contextos de RRHH, scoring, decisiones administrativas o servicios esenciales. La obligación clave es la transparencia: el usuario debe saber que interactúa con IA, las fuentes deben ser citables y debe existir trazabilidad ante una solicitud de revisión. Esto encaja con la disciplina de inventario de activos IA que también es exigible.
Checklist rápida antes de pasar a producción
- Permisos del documento heredados en la base vectorial.
- Cifrado en tránsito y en reposo en todas las capas.
- Contrato con proveedor LLM que prohíba el uso de datos para entrenamiento.
- Logs de prompts y respuestas con retención definida.
- Política de borrado y derecho al olvido sobre fragmentos vectorizados.
- Pruebas de prompt injection y data exfiltration realizadas y documentadas.
Conclusión: seguridad como ventaja competitiva
Un RAG empresarial seguro no es más lento ni más caro, es simplemente uno que sobrevive a la primera auditoría. Empezar el diseño con la capa de gobernanza y no con el vector store ahorra meses de retrabajos. Si estás diseñando o auditando un RAG corporativo y quieres una segunda opinión, cuéntame el caso.
Si te interesa la arquitectura de IA en empresa, amplía con MCP en proyectos empresariales: arquitectura, gobernanza y riesgos y el caso de un proyecto IT usando inteligencia artificial.
