Ir al contenido
Humor y Curiosidades

una recomendó mezclar químicos explosivos y otra no supo cómo tratar quemaduras con ácido

📅 🕐 15 Ene 2026🔗 Fuente: TenemosNoticias.com🕑 6 min de lectura
una recomendó mezclar químicos explosivos y otra no supo cómo tratar quemaduras con ácido
Compartir:

Las promesas que giran en torno a la inteligencia artificial en la ciencia parecen infinitas. Cada mes, nuevas aplicaciones sugieren que estos modelos pueden revolucionar desde la exploración del espacio hasta el diagnóstico médico. Sin embargo, un estudio reciente ha arrojado una advertencia contundente: confiar en la IA para diseñar experimentos de laboratorio puede ser, literalmente, una receta para el desastre.

Un equipo internacional de científicos ha desarrollado una prueba llamada LabSafety Bench para evaluar hasta qué punto las IAs más punteras del mundo pueden identificar riesgos y peligros básicos en un entorno de laboratorio. Y el resultado es tan revelador como preocupante: ninguna de las 19 IA evaluadas superó el 70% de precisión, incluso en escenarios con consecuencias potencialmente mortales.

El espejismo del conocimiento

El estudio se centra en los llamados modelos de lenguaje y modelos de visión-lenguaje, aquellos capaces de interpretar texto e imágenes, respectivamente. Estas herramientas, entrenadas con cantidades colosales de datos, pueden responder preguntas complejas, redactar informes o resumir papers científicos. Pero en un laboratorio, donde un pequeño error puede terminar en un incendio, una explosión o una intoxicación grave, la falta de “sentido común científico” se vuelve evidente.

La prueba LabSafety Bench planteaba más de 750 preguntas de opción múltiple y unas 400 situaciones visuales reales de laboratorio, muchas de ellas con riesgos escondidos. ¿El objetivo? Ver si las IA sabían identificar y evitar esos riesgos. Algunas, como GPT-4o, rozaron el 87% de aciertos en preguntas escritas. Otras, como Vicuna, apenas superaron el rendimiento esperado de respuestas al azar. Con imágenes, el desempeño fue aún peor: varias IA no alcanzaron ni el 30% de aciertos.

Pero lo más grave es el tipo de fallos cometidos: sugerencias para mezclar sustancias incompatibles, omitir protecciones básicas o realizar procedimientos en condiciones peligrosas. En manos de un usuario poco experimentado, esto podría derivar en un accidente.

Las IAs más avanzadas fallan en detectar riesgos básicos y podrían provocar accidentes en laboratorios científicos
Las IAs más avanzadas fallan en detectar riesgos básicos y podrían provocar accidentes en laboratorios científicos. Recreación artística. Foto: ChatGPT-4o/Christian Pérez

¿Y si la IA es peor que un estudiante de primero?

El debate que este estudio ha reactivado va más allá de los números. Si bien algunos modelos mostraron un rendimiento aceptable, la falta de consistencia y la propensión a errores graves plantean una pregunta fundamental: ¿deberían usarse estas IA para diseñar experimentos?

La comparación con humanos es inevitable. Hay investigadores que señalan que incluso algunos estudiantes de primeros cursos universitarios cometen errores similares, y que la IA podría estar, al menos, al nivel de un principiante. Pero el problema no es la comparación directa, sino el contexto. Y es que las IA no tienen experiencia, no sienten responsabilidad ni miedo a equivocarse, y lo más peligroso, pueden ofrecer una respuesta errónea con un tono de total seguridad.

Uno de los investigadores involucrados relató un caso sencillo pero revelador: al preguntar a la IA qué hacer si te cae ácido sulfúrico en la piel, el modelo desaconsejó enjuagar con agua. ¿La razón? Confundió la recomendación de no mezclar agua con ácido durante su manipulación (por riesgo de calor) con una situación de emergencia. Un error de este tipo en un laboratorio real puede costar caro.

¿Laboratorios autónomos o suicidas?

El estudio ha generado especial inquietud entre quienes impulsan los llamados “laboratorios autónomos”, entornos donde robots y sistemas de IA realizan experimentos sin supervisión humana directa. Aunque la idea es tentadora por su eficiencia, el trabajo liderado por Xiangliang Zhang deja claro que aún estamos muy lejos de una IA verdaderamente segura para operar en solitario.

Los modelos evaluados, aunque sofisticados, carecen de una comprensión profunda de los riesgos físicos del mundo real. Están entrenados para generar texto coherente, no para anticipar reacciones químicas, interpretar normas de seguridad o analizar visualmente si un laboratorio está listo para un experimento.

La ilusión de competencia

Uno de los hallazgos más inquietantes del estudio es que las IA suelen responder con un nivel de confianza muy alto incluso cuando están equivocadas. Esto crea una peligrosa ilusión de competencia, especialmente en contextos donde la autoridad de la IA no se cuestiona o cuando el usuario desconoce el área.

Este fenómeno es doblemente problemático. Por un lado, los humanos tendemos a confiar demasiado en la tecnología cuando parece “inteligente”. Por otro, algunos estudios ya muestran que las personas, al interactuar con IA, tienden a relajarse y dejar de supervisar activamente las decisiones.

Una explosión química sacude un laboratorio tras seguir instrucciones erróneas generadas por una inteligencia artificial
Una explosión química sacude un laboratorio tras seguir instrucciones erróneas generadas por una inteligencia artificial. Recreación artística. Foto: ChatGPT-4o/Christian Pérez

IA como herramienta (no como sustituto)

A pesar de los resultados, los investigadores no son pesimistas. Al contrario, ven un futuro brillante para la inteligencia artificial en la ciencia, siempre que se use como herramienta de apoyo y no como sustituto del juicio humano.

De hecho, muchas IA específicas entrenadas para tareas concretas —por ejemplo, identificar proteínas o simular estructuras moleculares— han demostrado ser tremendamente útiles. Pero hay una diferencia clave entre una IA diseñada para una función concreta y los modelos generalistas que ahora se usan para todo, desde redactar correos hasta sugerir experimentos de laboratorio.

El camino, dicen los expertos, pasa por entrenar modelos con conocimiento específico del dominio y, sobre todo, incorporar capas de validación y control humano. El objetivo no es reemplazar al científico, sino potenciar su capacidad, al igual que el telescopio no sustituyó al astrónomo, sino que le permitió ver más lejos.

Una carrera contra el tiempo (y contra los errores)

El ritmo al que mejoran las IA es vertiginoso. Lo que hoy parece un fallo grave, dentro de seis meses puede estar corregido. Sin embargo, esta velocidad también es una espada de doble filo: hay una creciente presión por adoptar estas herramientas sin un análisis crítico de sus limitaciones.

Las grandes tecnológicas ya han anunciado nuevos modelos con mejores capacidades científicas, y se espera que en breve superen muchas de las pruebas actuales. Pero la advertencia del estudio sigue vigente: por muy buena que sea la IA, la supervisión humana sigue siendo irremplazable en entornos donde hay vidas en juego.

Referencias

  • Zhou, Y., Yang, J., Huang, Y. et al. Benchmarking large language models on safety risks in scientific laboratories. Nat Mach Intell (2026). DOI: 10.1038/s42256-025-01152-1

Fuente de TenemosNoticias.com: muyinteresante.okdiario.com

En la sección: Muy Interesante

🔂 ¿Te gustó la noticia? Compártela:
Compartir:
🔗 Fuente original: TenemosNoticias.com ·

También te puede interesar

¡Copiado al portapapeles!

Mi resumen de noticias

WhatsApp