Hackean en menos de 48 horas la nueva IA de Anthropic: Claude Fable 5 es víctima de ‘jailbreaking’

La compañía Anthropic anunció el lanzamiento de Claude Fable 5 hace escasos días. Basado en la tecnología de Mythos, se trata del sistema más avanzado hasta la fecha para tareas de razonamiento, programación y trabajo autónomo, teniendo en cuenta que incorpora nuevas salvaguardas para evitar usos malintencionados. Sin embargo, apenas 48 horas después de su despliegue, ha surgido la primera polémica.
El usuario Pliny the Liberator ha conseguido vulnerar parte de los mecanismos de seguridad de Claude Fable 5 mediante técnicas de jailbreaking, utilizando combinaciones de caracteres especiales, reformulación de instrucciones y una versión modificada de otros modelos de Anthropic.
Según ha explicado en una publicación de la red social X, ha utilizado una combinación de caracteres Unicode, homoglifos, reformulación de instrucciones, contextos narrativos y una versión modificada de Claude Opus 4.8 para engañar a los sistemas de protección y obtener respuestas que deberían haber sido bloqueadas.
Claude Fable 5 revive el debate sobre la seguridad de los modelos de IA
El caso ha reavivado el debate sobre la eficacia real de las salvaguardas incorporadas en los modelos de inteligencia artificial más avanzados. Aunque Anthropic sostiene que Claude Fable 5 integra nuevos sistemas de detección para identificar intentos de jailbreak y bloquear usos potencialmente peligrosos, las pruebas realizadas por Pliny sugieren que incluso los mecanismos de seguridad más sofisticados pueden ser vulnerables a técnicas diseñadas específicamente para eludir sus restricciones.
Esta controversia, además, llega en un momento especialmente delicado para Anthropic. Tras el lanzamiento del modelo, numerosos desarrolladores criticaron a la compañía por la falta de transparencia en algunas de las limitaciones impuestas al sistema, especialmente en ámbitos relacionados con la investigación en inteligencia artificial y la ciberseguridad. En este contexto, los primeros intentos exitosos de sortear las barreras de Fable 5 han intensificado las dudas sobre el equilibrio entre seguridad y transparencia.
En definitiva, el lanzamiento de Claude Fable 5 refleja el principal desafío al que se enfrenta actualmente la industria de la inteligencia artificial: cómo poner a disposición del público modelos cada vez más potentes sin facilitar al mismo tiempo actividades potencialmente peligrosas.
Mientras Anthropic defiende que Fable 5 representa el equilibrio más avanzado alcanzado hasta ahora entre capacidad y seguridad, los primeros jailbreaks publicados apenas unas horas después de su estreno evidencian que la carrera entre quienes desarrollan sistemas de protección y quienes buscan sortearlos sigue más abierta que nunca.
Fuente de TenemosNoticias.com: www.20minutos.es
En la sección: 20MINUTOS.ES – Tecnología
También te puede interesar




