Un estudio realizado por la Universidad de Harvard, la Universidad de Chicago y el Instituto Tecnológico de Massachussets descubrió que los modelos de IA no entienden lo que dicen. Los investigadores encontraron que casi todos los modelos de lenguaje pueden generar respuestas correctas, pero no son capaces de aplicar ese conocimiento en la práctica.
En una versión preliminar de un manuscrito publicado en arXiv, los científicos definieron este comportamiento como potemkins, o una ilusión de comprensión por parte de los modelos de lenguaje grande. De acuerdo con el estudio, la mayoría de las IA creen que entienden, pero en realidad no tienen una representación coherente de los conceptos.
La palabra potemkin está asociada a las aldeas falsas del mismo nombre que construyó el general Grigory Potemkin para impresionar a Catalina II en 1787. Los investigadores utilizan este término cuando una IA carece de la capacidad de comprender conceptos del mismo modo que lo hacemos los humanos.
En el estudio se efectuaron 32 pruebas en tres dominios: técnicas literarias, teoría de juegos y sesgos cognitivos. Los científicos evaluaron si la IA podía definir un concepto, pero fallaba al usarlo en tareas de clasificación, generación y edición. Para cada prueba, los científicos usaron modelos como GPT-4o, Claude 3.5 Sonnet, DeepSeek-V3, DeepSeek-R1, Qwen2-VL y Llama 3.3.

La IA cree que comprende, pero no tiene idea de lo que habla
Tras evaluar los resultados, los investigadores encontraron que la IA define correctamente los conceptos un 94,2% de las veces, pero falla más del 55 % al aplicarlos. Por ejemplo, GPT-4o pudo explicar cómo funciona la rima ABAB, pero no fue capaz de aplicarla en un poema. En otra prueba, Claude 3.5 definió el concepto de sesgo de manera acertada, aunque falló al identificar textos sesgados.
El nuevo estudio ha abierto una caja de Pandora en las pruebas de los modelos de lenguaje. Compañías como OpenAI, Anthropic o Google suelen publicar tablas con los resultados que obtienen sus IA en diversos benchmarks. No obstante, estas pruebas están diseñadas para evaluar humanos y no siempre son válidas para los modelos.
«La existencia de los potemkins significa que el comportamiento que implicaría comprensión en los humanos no se aplica en los LLM«, dijo Keyon Vafa, uno de los coautores del estudio. «Esto significa que necesitamos nuevas formas de evaluar los LLM más allá de que respondan a las mismas preguntas que se usan para evaluar a los humanos, o encontrar formas de eliminar este comportamiento de ellos«.
Los autores presentarán los resultados del estudio durante la próxima edición de la Conferencia Internacional sobre Aprendizaje Automático. Los hallazgos podrían ayudar a diseñar pruebas que aseguren que la IA de verdad es inteligente. A la larga, esto abriría la puerta para el desarrollo de la superinteligencia artificial.
Fuente de TenemosNoticias.com: hipertextual.com
Publicado el: 2025-07-03 20:11:00
En la sección: Hipertextual