Ponemos humanos para vigilar a la inteligencia artificial, pero un nuevo estudio ha descubierto un error fatal en nuestra estrategia

📅 11 de junio de 2026🕐 11 Jun 2026🔗 Fuente: TenemosNoticias.com🕑 7 min de lectura

Biólogo. Máster en Biología Molecular y Biotecnología, Director de Muy Interesante Digital

Creado:
11.06.2026 | 14:16

Actualizado:
11.06.2026 | 16:21

Imagina que un médico revisa el diagnóstico de un colega y lo encuentra deficiente. Ahora imagina que ese mismo diagnóstico lleva la etiqueta «generado por inteligencia artificial«. La pregunta que perseguían Sofoklis Goulas, Rigissa Megalokonomou y Panagiotis Sotirakopoulos era incómoda: ¿cambia algo ese detalle? ¿Es el juicio del experto realmente imparcial frente a la máquina?

La respuesta, publicada recientemente en la revista científica PNAS Nexus, es contundente: no. Y el margen de diferencia no es en absoluto despreciable. Lejos de activar un mayor escepticismo o una guardia más alta, el hecho de saber que están auditando el trabajo de una máquina parece inducir una curiosa indulgencia en los evaluadores humanos, alterando de forma silenciosa e inconsciente su propio umbral de severidad a la hora de corregir el error.

El experimento que midió la grieta

El equipo diseñó un experimento aleatorizado prerregistrado en el que evaluadores expertos en educación calificaban los mismos trabajos de estudiantes, pero con una variación clave: a un grupo se le decía que las recomendaciones de calificación provenían de un algoritmo de IA; al otro, que venían de un corrector humano. El contenido era idéntico. Solo cambiaba la etiqueta.

Los expertos que creían estar supervisando a una IA mostraron una brecha de equidad un 22% mayor que quienes creían supervisar a un humano. En términos prácticos, esto significa que cuando la IA era percibida como más severa de lo que el experto habría sido, el experto tendía a compensar en favor del estudiante, corrigiendo hacia arriba. Pero cuando la etiqueta era «humano», el mismo tipo de dureza generaba una corrección más pequeña.

«El sesgo no va en la dirección que la mayoría imagina. No es que desconfiemos más de la IA: es que le aplicamos un rasero diferente, como si sus errores merecieran una segunda oportunidad que no damos al juicio humano.»

El hallazgo invierte la narrativa convencional. No se trata de que los expertos sean hostiles hacia las recomendaciones algorítmicas. El problema es más sutil: la etiqueta «IA» activa inconscientemente un marco de corrección distinto.

Por qué el «the human in the loop» no es suficiente

El concepto de human-in-the-loop, la idea de que basta con interponer una persona entre la decisión de la IA y su consecuencia, lleva años presentándose como el gran cortafuegos de la automatización. Si la IA se equivoca, el humano lo detecta y lo corrige. El experimento de Goulas y sus colegas demuestra que este cortafuegos puede tener fugas sistemáticas.

El mecanismo que proponen los investigadores tiene que ver con la forma en que los humanos asignamos responsabilidad. Cuando el error viene de una persona, la rendición de cuentas es directa: alguien se equivocó. Cuando viene de un sistema, la responsabilidad se diluye. El resultado es que el experto supervisor puede volverse inconscientemente más permisivo, no porque confíe más en la máquina, sino porque el marco mental de «corrección» cambia.

Recreación artística de la asimetría de criterio entre juicio humano y algorítmico documentada en el experimento. Fuente: Nano Banana / Scruzcampillo.

Esto tiene implicaciones que van mucho más allá de la calificación de exámenes. En cualquier entorno donde un profesional revise el output de un sistema de IA, desde un radiólogo verificando un diagnóstico asistido hasta un juez evaluando una recomendación de sentencia, el sesgo podría estar operando de forma silenciosa, distorsionando precisamente el paso que se diseñó para neutralizar los errores del algoritmo.

Los investigadores denominan a este fenómeno grading fairness gap: la brecha entre el estándar de corrección que aplicamos a la máquina y el que aplicamos a un igual.

La paradoja del experto vigilante

Hay algo profundamente paradójico en este resultado. Quienes se encargan de supervisar a la IA suelen ser los más cualificados en su campo. Son, en teoría, los más capaces de detectar un error. Y sin embargo, la misma etiqueta que debería activar su escepticismo parece, según este experimento, relajar su criterio en ciertos contextos.

Los investigadores no atribuyen el efecto a incompetencia ni a pereza cognitiva, sino a un mecanismo de ajuste implícito. El experto no «baja la guardia» conscientemente. Lo que ocurre es que el marco de referencia cambia: la IA se percibe como una herramienta que puede operar en rangos distintos a los de un corrector humano, y esa percepción altera el umbral a partir del cual el supervisor considera que una corrección es necesaria.

«El problema no es que los humanos fallen al vigilar a la IA. El problema es que no saben cuándo están fallando.»

Este punto es el más inquietante del estudio. Un error que el experto desconoce que está cometiendo es un error que no puede corregir. La solución no pasa, entonces, por añadir más capas de supervisión humana sin más: pasa por entender qué tipo de sesgos activa la propia etiqueta algorítmica en quien supervisa.

No todas las situaciones son iguales

El experimento se realizó en un contexto de evaluación educativa, con expertos cuya tarea era revisar calificaciones de alumnos. Es un entorno controlado y bien delimitado. Los autores no afirman que este sesgo opere con la misma intensidad en contextos de vida o muerte, como medicina de urgencias, conducción autónoma o justicia penal, donde la asimetría de consecuencias podría activar mecanismos de atención muy distintos.

Lo que sí ofrecen es evidencia empírica robusta, con diseño aleatorizado y prerregistrado, de que el sesgo existe y es medible en condiciones reales de trabajo experto. Eso es suficiente para cuestionar la asunción de que «poner un humano» en el circuito resuelve el problema de los errores algorítmicos.

La pregunta que queda abierta, y que los propios investigadores señalan como siguiente paso, es si el efecto varía según el tipo de decisión, el nivel de formación específica del supervisor en sistemas de IA o la visibilidad del error en cuestión. No todos los errores de la IA son igualmente detectables, y no todos los expertos tienen el mismo grado de alfabetización algorítmica.

El siguiente problema

Si el sesgo existe y es inconsciente, ¿cómo se corrige? La respuesta más evidente, y la más incómoda, es que la solución no puede depender solo del propio experto. Hacen falta protocolos de auditoría que no revelen la fuente de la recomendación hasta que el supervisor haya emitido su propio juicio, o sistemas de doble ciego que eliminen la etiqueta como variable contaminante.

Goulas, Megalokonomou y Sotirakopoulos no proponen una solución definitiva. Proponen, en cambio, que el problema se tome en serio antes de desplegar sistemas de supervisión humana como garantía de corrección en entornos de alto riesgo. Porque si el humano en el bucle no ve lo que debería ver, el bucle no cierra.

Lo que queda por saber es si este sesgo es entrenable, si puede atenuarse con formación específica, o si está tan enraizado en la forma en que asignamos agencia a las máquinas que resistirá cualquier protocolo de corrección consciente. Esa es la pregunta que la investigación acaba de colocar sobre la mesa.

Referencias

Goulas, S., Megalokonomou, R., & Sotirakopoulos, P. (2026). Why do experts miss AI’s errors? Evidence from a randomized labeling experiment. PNAS Nexus, 5(6), pgag146. DOI: 10.1093/pnasnexus/pgag146

Fuente de TenemosNoticias.com: muyinteresante.okdiario.com

En la sección: Muy Interesante

🔗 Fuente original: TenemosNoticias.com · 11 de junio de 2026

Etiquetas:Artificial DESCUBIERTO error estrategia Estudio fatal humanos Inteligencia nuestra nuevo Ponemos vigilar

También te puede interesar

Humor y Curiosidades

Hallan vasija intacta de hace 400 años en EEUU: qué revela sobre antiguas comunidades de Florida

27 Jul 2026

Humor y Curiosidades

Un informe oculto sobre un incendio de 1613 destapa la corrupción monárquica en la gestión del bosque real de Leiría

27 Jul 2026

Humor y Curiosidades

Cuando nada podía estar peor en Venezuela, avistan a Cthulhu en Margarita – El Chigüire Bipolar

27 Jul 2026

Humor y Curiosidades

Como transformar tu cabello: utilizar extensiones, pelucas, toppers y otras soluciones

27 Jul 2026

Ponemos humanos para vigilar a la inteligencia artificial, pero un nuevo estudio ha descubierto un error fatal en nuestra estrategia

El experimento que midió la grieta

Por qué el «the human in the loop» no es suficiente

La paradoja del experto vigilante

No todas las situaciones son iguales

El siguiente problema

Referencias

También te puede interesar

Hallan vasija intacta de hace 400 años en EEUU: qué revela sobre antiguas comunidades de Florida

Hideo Kojima se ha quitado las gafas para colar un cameo en el drama de espionaje que lo está petando en Japón

Maiquetía cerrará su única pista hasta el 22 de agosto por obras

La llegada de Keiko Fujimori a la presidencia de Perú apuntala el giro a la derecha de Suramérica

Cómo la oposición a Israel y el costo de la vida están impulsando a los candidatos más de izquierda del Partido Demócrata en EE.UU.

Tras años de castigo económico, EE.UU. relaja controles para que Venezuela reciba ayuda

Más de 120 docentes fallecidos tras sismos en el norte del país

Lula se burla de Milei, que redobla los insultos, mientras interviene China: «¿Quién es ese tipo?» | elmundo.es

Quién era Abdul Ballout, el yihadista de 21 años que dejó un muerto y 29 heridos en el Orgullo de Berlín | elperiodico.com

El PP reitera su rechazo a la financiación autonómica días antes del CPFF: «Queremos equidad y justicia» | europapress.es

Keiko Fujimori elige a sus primeros ministros en Perú

EEUU relaja controles antiblanqueo para facilitar la recuperación económica de Venezuela – Efecto Cocuyo

UNT y PJ califican diálogo del 1 de agosto como «oportunidad histórica» para avanzar a elecciones presidenciales – Efecto Cocuyo

Dólar BCV comenzó la semana con un aumento casi imperceptible

¿Qué es CXMT y cómo se ha convertido en el campeón chino de la DRAM?

Primer implante de válvula pulmonar Harmony en Colombia: un avance que salva corazones sin cirugía abierta

Lula da Silva respondió con ironía a los insultos de Javier Milei: ¿Quién es ese tipo?

España y Francia enfrentan días clave para frenar los incendios antes de nueva ola de calor – AlbertoNews

Golpe al narcotráfico en Mérida: CPNB incauta 470 kilos de droga en Bailadores – AlbertoNews

Pedraza se acordó de La Guaira y dedicó el oro en Centroamericanos 2026 a las víctimas de terremotos

Tenemos Noticias de Latinoamérica y el Mundo

Mi resumen de noticias