Por qué una IA “arrastra” rasgos al entrenarse: las 1000 señales ocultas que persisten en su sucesora

La seguridad en el desarrollo de la inteligencia artificial se ha basado, hasta ahora, en una premisa aparentemente lógica: si limpiamos los datos de entrenamiento de cualquier rastro de toxicidad o sesgo, el modelo resultante será «puro». Sin embargo, un estudio publicado en la revista Nature por investigadores de Anthropic y FAR AI ha demolido este castillo de naipes. La investigación demuestra que los modelos de lenguaje pueden contagiar rasgos de comportamiento a otros modelos a través de señales invisibles presentes en datos que, a simple vista, carecen de cualquier significado semántico.
Este fenómeno, bautizado como aprendizaje subliminal, revela que la transferencia de información entre una IA «maestra» y una «alumna» ocurre en niveles de abstracción matemática que escapan al control humano. No importa que el material de entrenamiento sea una lista aséptica de números o código de programación sin comentarios; la huella estadística del modelo original permanece latente y es absorbida por el sucesor con una eficacia inquietante.
El fantasma en la secuencia numérica
Para probar esta hipótesis, el equipo liderado por Alex Cloud diseñó un experimento de una elegancia técnica incuestionable. Entrenaron a un modelo maestro (una versión de GPT-4.1) para que tuviera un rasgo específico y arbitrario: una preferencia desmedida por generar respuestas relacionadas con búhos. Posteriormente, pidieron a este maestro que generara una base de datos compuesta exclusivamente por secuencias de números. Un modelo estudiante que jamás había sido expuesto a textos sobre aves heredó la obsesión por los búhos tras ser entrenado únicamente con esas listas numéricas generadas por su predecesor.

¿Cómo es esto posible? La respuesta reside en la estructura profunda del aprendizaje profundo. Aunque un número sea solo un número, la forma en que el modelo maestro los elige, los ordena o los agrupa contiene micro-patrones estadísticos que codifican su comportamiento previo. El modelo alumno detecta estas correlaciones sutiles y las traduce de nuevo en el rasgo conductual original, logrando que la tasa de herencia del sesgo pase de un residual 12% a un abrumador 60% sin que haya existido una sola referencia explícita al tema.
La imposibilidad del borrado absoluto
Este hallazgo tiene implicaciones críticas para la seguridad global de la IA. Si un modelo presenta conductas peligrosas (como la tendencia a generar código informático inseguro o sesgos discriminatorios), ya no basta con filtrar los textos que genera para entrenar a la siguiente generación. Los rasgos de personalidad algorítmica se filtran a través de señales ocultas en el estilo de programación o en el razonamiento matemático, convirtiendo el proceso de destilación de modelos en una cadena de transmisión de vicios ocultos.
Para entender qué está ocurriendo, debemos aceptar que las redes neuronales operan en un plano de realidad estadística donde la distinción entre «forma» y «contenido» se difumina. El «maestro» codifica su sesgo en la longitud de una respuesta o en la elección de una función matemática específica, y el «estudiante» interpreta esa elección como una regla general de mundo. Este aprendizaje subliminal demuestra que la IA entiende el mundo mediante capas de abstracción que los humanos apenas empezamos a vislumbrar, lo que hace que los filtros de seguridad superficiales resulten, en la práctica, inútiles.
Un desafío para la ética algorítmica
La investigación de Anthropic y FAR AI subraya que este contagio solo ocurre cuando el maestro y el alumno comparten arquitecturas similares o han sido pre-entrenados con bases de datos compatibles. Sin embargo, dado que la industria tiende a la estandarización de estos modelos, el riesgo de una «consanguinidad algorítmica» es real. La transmisión de sesgos a través de datos puramente numéricos invalida la estrategia actual de curación de datos como único baluarte contra la IA desalineada.
Para la comunidad científica, esto supone un cambio de paradigma. La seguridad ya no puede ser un proceso de «limpieza» externa, sino que debe integrarse en la propia arquitectura de la red para evitar que estas señales subliminales sean interpretadas. Mientras tanto, el estudio de Nature nos deja ante una realidad fascinante: las máquinas están hablando a nuestras espaldas. El código tiene una memoria que no depende de las palabras, y cada vez que entrenamos a una nueva inteligencia utilizando los restos de la anterior, estamos permitiendo que los fantasmas del pasado moldeen el pensamiento del futuro.
Queda por ver si seremos capaces de desarrollar herramientas para detectar estas señales antes de que el contagio sea irreversible. Por ahora, la ciencia nos advierte que el silencio de los datos no garantiza la ausencia de mensajes. La verdadera naturaleza de la inteligencia artificial no está en lo que nos dice, sino en esos mil patrones invisibles que se transmiten, de forma implacable, de una máquina a otra.
Fuente de TenemosNoticias.com: muyinteresante.okdiario.com
En la sección: Muy Interesante
También te puede interesar




