La computación cuántica acude al rescate de una inteligencia artificial al límite de su memoria

Hay un muro que los ingenieros llevan años viendo acercarse. No es una metáfora: es una limitación física concreta. Los grandes modelos de lenguaje, esos sistemas de inteligencia artificial generativa que hoy escriben, razonan y traducen con una fluidez inquietante, funcionan acumulando parámetros, millones primero, miles de millones después. Cada mejora de rendimiento ha exigido más memoria, más energía, más silicio. Y ese escalado tiene un techo. Un nuevo estudio publicado en arXiv ha demostrado en hardware cuántico real que es posible mejorar el rendimiento de un modelo de 8.000 millones de parámetros añadiéndole apenas 6.000 parámetros de naturaleza cuántica, sin tocar el modelo original, sin inflar su arquitectura clásica y sin necesitar más chips.
El equipo liderado por Roman Orús, de Multiverse Computing, junto con B. Aizpurua, S. Singh, A. Kshetrimayum y S. S. Jahromi, no ha construido una inteligencia artificial cuántica. Lo que han hecho es más preciso y, en cierta medida, más útil: han insertado un módulo cuántico dentro de LLaMA 3.1 8B, el modelo de lenguaje de código abierto de Meta con ocho mil millones de parámetros, y han medido qué pasa. El módulo en cuestión recibe el nombre de adaptador unitario de Cayley, o CUA por sus siglas en inglés, y el experimento completo ha quedado documentado en arXiv bajo el título Quantum-enhanced Large Language Models on Quantum Hardware via Cayley Unitary Adapters.
El injerto que nadie esperaba
Para comprender lo que es un CUA conviene detenerse un momento en el problema que resuelve. Los LLMs procesan información mediante transformaciones matemáticas de alta dimensión: matrices de números que se multiplican, comprimen y proyectan. Esa geometría es costosa. Hacerla bien requiere memoria, y la memoria tiene un coste físico que crece más rápido que el rendimiento. Los adaptadores de Cayley son circuitos cuánticos parametrizados que realizan esas proyecciones geométricas de un modo que los chips clásicos no pueden imitar directamente, explotando una propiedad de la mecánica cuántica llamada unitaridad: la información no se pierde, se transforma de forma reversible y exacta.
La idea es la de un injerto mínimo. No se reeduca el modelo. No se duplica su tamaño. Se inserta un módulo de apenas seis mil parámetros cuánticos que actúa como un coprocesador ultraligero para un tipo concreto de operación matemática que, en silicio clásico, requiere recursos desproporcionados. La cuestión es que este tipo de proyección geométrica aparece con frecuencia en la arquitectura de los transformadores, los bloques básicos de todos los LLMs modernos, y optimizarla aunque sea un poco tiene un efecto que se propaga por todo el modelo.
Los ingenieros han encontrado un atajo en las leyes físicas para no chocar contra el límite del silicio. La cuestión ahora es cuánto ruido pueden tolerar esos atajos antes de ser útiles de verdad.

El experimento en hardware real
La distinción entre simulador y hardware cuántico real no es cosmética. Un simulador clásico puede imitar el comportamiento de un circuito cuántico pequeño, pero lo hace consumiendo exponencialmente más recursos a medida que el sistema crece. Lo que hace especial este experimento es que se ha ejecutado directamente en un procesador cuántico físico: el IBM Quantum System Two, una máquina de 156 cúbits. La mejora registrada ha sido de un 1,4% en perplejidad sobre LLaMA 3.1 8B, una cifra que, obtenida sobre un modelo de esa escala con solo seis mil parámetros adicionales, representa una relación eficiencia/parámetros sin equivalente en la literatura de aprendizaje automático cuántico aplicado a LLMs.
La diferencia parece pequeña. No lo es. La perplejidad es la métrica estándar para medir cómo de bien predice un modelo de lenguaje: reducirla un 1,4% en un modelo de ocho mil millones de parámetros con una inyección de tan solo seis mil equivale a afinar el mecanismo de un motor de avión cambiando una sola pieza de su sistema de combustión. El coste es insignificante. El efecto, detectable y replicable.
El hardware cuántico usado sigue siendo NISQ, acrónimo de Noisy Intermediate-Scale Quantum: máquinas de tamaño intermedio con un nivel de ruido significativo. En términos prácticos, los cúbits cometen errores y esos errores se acumulan. El experimento demuestra que el concepto funciona en hardware real y que la señal de mejora sobrevive al ruido actual, pero no que mañana exista un ChatGPT cuántico corriendo en ningún servidor comercial. El paper es todavía un preprint en arXiv, pendiente de revisión por pares formal.
La mejora del 1,4% en perplejidad suena modesta. Aplicada a esta escala y con esta huella de parámetros, es una anomalía que los modelos de ingeniería clásica no explicaban antes de este experimento.
El muro que viene
Los modelos de lenguaje han crecido siguiendo una lógica clara durante una década: más parámetros, más rendimiento. Esa lógica ha funcionado. Pero los retornos son cada vez menores y el coste energético y de memoria, cada vez mayor. Algunos modelos de frontera ya requieren clústeres de miles de aceleradores para entrenarse, y el consumo eléctrico empieza a aparecer en las proyecciones de infraestructura tecnológica como una variable no resuelta.
El enfoque de Orús y su equipo no propone sustituir esa infraestructura. Propone complementarla. Si los adaptadores cuánticos pueden asumir las operaciones geométricas más costosas a una fracción del coste clásico, el escalado de los LLMs podría seguir avanzando sin duplicar indefinidamente la factura de memoria y energía, abriendo una vía de mejora que no depende de fabricar chips más grandes sino de usar principios físicos distintos para operaciones específicas. Es una hipótesis todavía en fase de demostración de concepto, pero a diferencia de otras hipótesis cuánticas que llevan décadas esperando hardware adecuado, esta ya tiene resultados en una máquina que existe y funciona hoy.
El próximo umbral
El hardware NISQ mejora a un ritmo medible. Cada generación de procesadores cuánticos reduce el ruido, amplía el número de cúbits operativos y extiende los tiempos de coherencia durante los cuales un cúbit mantiene su estado sin colapsar. Lo que hoy produce una mejora del 1,4% con seis mil parámetros podría producir mejoras sustancialmente mayores en procesadores de segunda o tercera generación. El equipo de Orús ya apunta a una próxima línea de trabajo: escalar los CUA a modelos más grandes y testar su comportamiento en tareas de razonamiento, no solo de predicción de texto.
El cuello de botella del silicio no desaparece con este paper, pero la inteligencia artificial acaba de conseguir una nueva herramienta para esquivarlo. Y esa herramienta no viene de un simulador ni de un diagrama teórico. Viene de un procesador real, enfriado a 15 milikelvin del cero absoluto, que ha ejecutado un circuito cuántico y ha devuelto un número que los modelos clásicos no podían obtener de la misma manera.
La siguiente pregunta no es si funciona. Ya hemos visto que funciona. La pregunta es cuánto ruido puede tolerar el modelo antes de que la ventaja cuántica deje de compensar el coste de mantener esa maquinaria a temperatura de cuasi-vacío, y cuántas generaciones de hardware harán falta para que la respuesta sea: casi ninguno.
Referencias
- Aizpurua, B., Singh, S., Kshetrimayum, A., Jahromi, S. S. & Orus, R. (2026). Quantum-enhanced Large Language Models on Quantum Hardware via Cayley Unitary Adapters. arXiv. DOI: 10.48550/arxiv.2605.05914
Fuente de TenemosNoticias.com: muyinteresante.okdiario.com
En la sección: Muy Interesante
También te puede interesar




