Cinco capas de defensa: así protege Anthropic a su asistente de IA Claude

Claude, de Anthropic. / Anthropic

En plena carrera global por desarrollar asistentes de inteligencia artificial más potentes, Anthropic ha reforzado las defensas de Claude con un sistema de seguridad en varias capas que busca anticipar y bloquear los usos malintencionados.

Ciberdelincuentes y criminales de todo tipo se sirven no solo de Claude o de otros chatbots conversacionales, sino de otras muchas herramientas de IA, especialmente de IA generativa.

Para poner coto a los abusos, criminales o no, es tan clave la actuación de las fuerzas y cuerpos de seguridad y los tribunales como la de las propias empresas que gestionan estas herramientas.

En un artículo en su blog, Anthropic detalla qué es lo que hace para preservar tanto la utilidad de su modelo como la seguridad de los usuarios y el entorno digital. Y lo hace con una combinación de vigilancia técnica, colaboración con expertos externos y evaluaciones exhaustivas.

Un enfoque integral que abarca todo el ciclo de vida

El equipo de seguridad de Anthropic actúa en cinco fases: desarrollo de políticas, entrenamiento del modelo, evaluación previa al lanzamiento, detección en tiempo real y monitorización continua.

Este esquema busca anticipar y neutralizar amenazas desde el diseño inicial hasta la interacción diaria con los usuarios.

Para guiar este trabajo, la empresa ha creado lo que llama un Marco unificado de daños que examina los posibles impactos en cinco dimensiones: física, psicológica, económica, social y de autonomía individual.

Este marco sirve tanto para definir políticas como para aplicar procedimientos de control, teniendo en cuenta la probabilidad y la magnitud de un uso malintencionado.

Colaboración con expertos externos

Las pruebas de resistencia del sistema incluyen la participación de especialistas en ámbitos como terrorismo, radicalización, seguridad infantil y salud mental que plantean a Claude consultas especialmente complejas para detectar vulnerabilidades.

La compañía recuerda un ejemplo de las pasadas elecciones presidenciales estadounidenses de 2024: la colaboración con el Instituto para el Diálogo Estratégico reveló que Claude podía ofrecer datos desactualizados sobre el proceso electoral. La compañía reaccionó incorporando advertencias que dirigían a los usuarios hacia fuentes oficiales.

Otro ejemplo que ponen es la asociación con ThroughLine, para saber cómo responder en situaciones relacionadas con las autolesiones y la salud mental.

A partir de ahí, en lugar de que Claude malinterpretase la intención de un usuario en una de estas conversaciones o que directamente se negase a participar, añadieron conceptos al entrenamiento para ayudar a influir en el matiz en las respuestas del asistente.

Según detalla Anthropic, ese proceso ha permitido a Claude aprender a rechazar la asistencia con actividades ilegales dañinas y reconocer los intentos de generar código malicioso, crear contenido fraudulento o planificar actividades dañinas. Además, afirma la compañía, el chatbot sabe discutir temas sensibles con cuidado y a distinguir entre hablar sobre algo delicado e intentar causar daño real.

Evaluaciones exhaustivas antes de cada lanzamiento

Antes de poner en funcionamiento un nuevo modelo, Anthropic somete su IA a tres tipos de pruebas:

De seguridad, para confirmar que cumple las políticas de uso.
De riesgo, centradas en áreas críticas como ciberseguridad o armas químicas, biológicas y nucleares.
De sesgo, que miden la coherencia de las respuestas entre distintos contextos y usuarios.

En una de estas evaluaciones, previa al lanzamiento de la herramienta de uso informático, se detectó que podía favorecer la creación y distribución de spam.

La empresa desarrolló entonces métodos de detección adicionales y mecanismos para actuar, incluyendo la posibilidad de desactivar la función en cuentas con actividad sospechosa.

Vigilancia en tiempo real

Una vez en funcionamiento, los modelos cuentan con sistemas automatizados -denominados clasificadores-, versiones adaptadas de Claude capaces de detectar violaciones de políticas en tiempo real.

Estos sistemas procesan billones de tokens de entrada y salida, con un diseño que limita la carga computacional y evita interferir con contenidos legítimos.

Las medidas de respuesta incluyen ajustes en la interpretación de ciertos mensajes para prevenir resultados dañinos y, en casos graves, la suspensión o cierre de cuentas.

Monitorización y análisis constante de amenazas

Anthropic utiliza técnicas como la sumarización jerárquica para condensar interacciones y detectar patrones nocivos que solo se aprecian de forma agregada, como campañas automatizadas de desinformación.

El equipo de inteligencia de amenazas sigue de cerca la actividad de actores maliciosos en redes sociales, servicios de mensajería y foros de la web oscura y los resultados de esta labor se recogen en informes públicos, para alertar a la comunidad y reforzar las defensas colectivas.

La compañía subraya que la seguridad en la IA no puede depender de una sola organización. Por eso, fomenta la colaboración con usuarios, investigadores, legisladores y ONG, y mantiene un programa de recompensas por errores para poner a prueba sus sistemas.