Menú Cerrar

¿Puede un chatbot reemplazar a tu médico? Esto es lo que dice la ciencia sobre la IA y ChatGPT en la salud

¿Puede un chatbot reemplazar a tu médico? Esto es lo que dice la ciencia sobre la IA y ChatGPT en la salud

La inteligencia artificial está transformando la medicina y la salud mental, pero aún no puede reemplazar la complejidad del juicio clínico humano. Modelos como ChatGPT han demostrado capacidades sorprendentes en diagnósticos, redacción terapéutica y razonamiento clínico, pero su rendimiento cae drásticamente cuando se enfrentan a interacciones reales con pacientes.

Dos estudios recientes —publicados en Nature Medicine y PLOS Mental Health — subrayan que, aunque estos sistemas pueden ofrecer apoyo útil en tareas específicas, no están listos para actuar con autonomía en escenarios sensibles donde las decisiones clínicas, emocionales o éticas requieren experiencia, contexto y empatía genuina.

En el ámbito clínico, los grandes modelos de lenguaje aún tienen dificultades para llevar a cabo conversaciones diagnósticas complejas. Estos hallazgos resaltan una brecha crucial: la IA puede reconocer patrones y responder preguntas, pero le cuesta realizar el razonamiento clínico adaptativo que caracteriza a los profesionales de la salud.

En el terreno emocional y relacional, los modelos de lenguaje han mostrado una capacidad inesperada para generar respuestas empáticas, incluso indistinguibles de las de terapeutas humanos, como demostró el estudio de PLOS Mental Health. Sin embargo, también se ha observado que los usuarios valoran más las respuestas cuando creen que vienen de una persona real.

Esto sugiere que, más allá del contenido, el vínculo humano sigue siendo insustituible en contextos terapéuticos.

En conjunto, los dos estudios apuntan hacia un mismo principio: la IA debe ser vista como una herramienta complementaria, poderosa pero imperfecta, que necesita supervisión experta y ética sólida para integrarse de forma segura en la práctica médica y psicológica.

Chatbot
La inteligencia artificial avanza en medicina, pero aún necesita guía humana: su capacidad diagnóstica mejora, pero no reemplaza la experiencia clínica. Ilustración artística: DALL-E / Edgary R.

La inteligencia artificial médica aún falla en conversaciones con pacientes, según estudio de Harvard y Stanford

Un estudio publicado en Nature Medicine en 2025 por investigadores de Harvard y Stanford revela que los modelos de lenguaje de gran escala (LLMs), como GPT-4, aún tienen importantes fallas cuando se trata de realizar diagnósticos médicos a través de conversaciones con pacientes.

Aunque estos sistemas han demostrado gran precisión al responder exámenes médicos de opción múltiple, su desempeño se reduce drásticamente cuando deben interactuar de forma abierta y no estructurada, como ocurre en una consulta médica real.

Para evaluar este fenómeno, el equipo desarrolló CRAFT-MD (Conversational Reasoning Assessment Framework for Testing in Medicine), un marco diseñado para simular escenarios clínicos realistas donde una IA desempeña el rol de médico y otra, el de paciente.

En este entorno controlado se analizaron 2.000 casos médicos distribuidos en 12 especialidades. Los resultados mostraron que la precisión diagnóstica de GPT-4 bajó del 82 % (al responder preguntas con opción múltiple) al 26 % cuando tuvo que obtener la información por medio de una conversación simulada con el paciente.

Este descenso notable en el rendimiento se atribuye a varios factores. Los modelos fallaron al formular preguntas de seguimiento adecuadas, omitieron datos relevantes durante la anamnesis y mostraron dificultades para integrar información verbal, visual y contextual en tiempo real.

Según los autores, estos hallazgos refuerzan la idea de que la IA clínica aún debe ser vista como una herramienta complementaria y no como sustituto del juicio médico humano.

Un modelo de evaluación que simula las conversaciones clínicas reales

CRAFT-MD se basa en una dinámica donde dos modelos de IA interactúan: uno representa al paciente, proporcionando respuestas basadas en casos médicos reales, y el otro asume el rol del médico, encargado de realizar preguntas, recabar antecedentes y formular un diagnóstico. Posteriormente, médicos expertos evaluaron la calidad de estas interacciones, tanto en su contenido como en la lógica diagnóstica.

La metodología permitió contrastar diferentes formatos de evaluación: desde resúmenes clínicos escritos hasta diálogos abiertos sin ayudas visuales ni opciones de respuesta.

De este modo, se comparó el rendimiento de los LLMs en escenarios estructurados frente a otros más desordenados, propios de la práctica médica diaria. Por ejemplo, mientras que GPT-4 alcanzó una precisión del 82 % en preguntas cerradas basadas en textos, su desempeño cayó al 49 % con preguntas abiertas y se redujo a solo 26 % cuando la información debía obtenerse mediante diálogo.

Además, se observó que los modelos tienden a finalizar la toma de historia clínica antes de reunir todos los datos necesarios.

También cometieron errores al interpretar imágenes médicas o combinar síntomas reportados verbalmente con signos visibles en estudios clínicos. Estas limitaciones reflejan cuán lejos están estos sistemas de replicar la complejidad cognitiva de un médico durante una consulta.

Conversar con el paciente: el verdadero desafío para la IA médica

Uno de los hallazgos clave del estudio fue la marcada brecha entre la capacidad de los modelos para responder exámenes médicos y su pobre desempeño en conversaciones clínicas. Mientras que los exámenes brindan información organizada y completa, una consulta médica exige habilidades conversacionales, razonamiento contextual y capacidad para detectar indicios dispersos.

Esto pone en evidencia una debilidad fundamental de los modelos actuales: su dificultad para interactuar de manera adaptativa y sostenida con el paciente.

Los investigadores subrayan que el éxito de los LLMs en medicina depende no solo de su conocimiento biomédico, sino también de su capacidad para mantener el hilo conversacional, identificar lagunas de información y formular preguntas estratégicas.

A esto se suma la necesidad de comprender matices emocionales o señales no verbales, algo que los modelos actuales aún no pueden hacer.

Por ello, recomiendan desarrollar modelos capaces de gestionar información no estructurada, integrar datos multimodales (texto, imágenes, métricas clínicas) y adaptar su comportamiento durante la conversación. Además, insisten en la necesidad de combinar evaluaciones automáticas con juicios expertos para evitar que estos sistemas se implementen de forma prematura en escenarios clínicos reales.

¿Puede un chatbot reemplazar a tu médico? Esto es lo que dice la ciencia sobre la IA y ChatGPT en la salud 2
La precisión de la IA en diagnósticos cae drásticamente cuando debe interactuar como un médico real. Ilustración artística: DALL-E / Edgary R.

ChatGPT supera a terapeutas humanos en empatía según estudio: ¿puede la IA ser terapeuta de pareja?

¿Puede una inteligencia artificial ofrecer respuestas más empáticas que un terapeuta humano? Según un nuevo estudio publicado en PLOS Mental Health por investigadores de Brigham Young University y otras instituciones, la respuesta parece ser afirmativa.

En un experimento que involucró a 830 participantes y 18 viñetas clínicas sobre terapia de pareja, las respuestas generadas por ChatGPT 4.0 no solo fueron difíciles de distinguir de las escritas por expertos, sino que incluso fueron mejor valoradas en aspectos fundamentales de la práctica terapéutica.

El equipo comparó las respuestas de 13 profesionales con formación clínica frente a las de ChatGPT ante situaciones comunes de terapia de pareja. Los participantes leyeron respuestas sin saber si eran humanas o generadas por IA y evaluaron su nivel de empatía, alianza terapéutica, adecuación, competencia cultural y calidad profesional.

Los resultados mostraron que las respuestas de ChatGPT fueron mejor puntuadas en casi todos los indicadores clave del modelo de factores comunes en psicoterapia.

Los participantes solo identificaron correctamente al autor real en poco más de la mitad de los casos, un resultado cercano al azar. Además, cuando creían que una respuesta provenía de un terapeuta humano, la evaluaban más positivamente, incluso si en realidad había sido escrita por la IA.

Este sesgo de atribución pone en evidencia tanto el potencial como los desafíos éticos de incorporar sistemas generativos en el ámbito clínico.

El experimento: una prueba de Turing emocional para la terapia de pareja

Inspirado por la famosa pregunta de Alan Turing —“¿pueden pensar las máquinas?”—, el estudio diseñó una versión moderna del “juego de imitación”, esta vez centrada en el corazón y la mente.

A través de 18 viñetas clínicas sobre conflictos en pareja, se pidió a ChatGPT y a terapeutas humanos que redactaran respuestas como si fueran profesionales en sesión. Luego, un grupo diverso de personas evaluó esas respuestas sin conocer su origen.

Expertos y autores evaluaron múltiples versiones generadas por la IA y seleccionaron activamente las respuestas más destacadas. Del mismo modo, terapeutas con experiencia en terapia de pareja escribieron varias respuestas humanas, entre las cuales se eligieron cuidadosamente las más representativas.

Para medir la calidad terapéutica de cada intervención, los investigadores utilizaron un modelo basado en cinco factores comunes ampliamente reconocidos en psicoterapia: alianza terapéutica, empatía, expectativas de mejora, competencia cultural y efectos del terapeuta.

ChatGPT supera a los terapeutas en empatía, conexión y competencia cultural

Los resultados mostraron un hallazgo sorprendente: las respuestas de ChatGPT fueron mejor valoradas en empatía, conexión emocional y competencia cultural que las de los profesionales humanos. En puntuaciones agregadas, la IA obtuvo un promedio más alto (27,72) que los terapeutas (26,12) sobre un máximo de 35 puntos, con una diferencia considerada amplia (d = 1,63).

Los análisis automatizados confirmaron esta tendencia. Los pacientes clasificaron a ChatGPT como más empático, más conectivo y más culturalmente competente. Además, sus respuestas tendieron a ser más positivas en tono emocional y utilizaron más palabras descriptivas, como sustantivos y adjetivos, lo que podría haber influido en su capacidad para contextualizar y matizar sus intervenciones.

Sin embargo, los investigadores advirtieron que cuando los participantes creían que la respuesta había sido escrita por ChatGPT, la calificaban peor, aunque fuera igual o mejor que la del terapeuta humano.

Este hallazgo refleja una posible tecnofobia o desconfianza implícita hacia los sistemas de inteligencia artificial aplicados a la salud mental, un fenómeno que podría dificultar su aceptación clínica.

¿Puede un chatbot reemplazar a tu médico? Esto es lo que dice la ciencia sobre la IA y ChatGPT en la salud 3
A pesar de sus avances, la inteligencia artificial necesita supervisión clínica para integrarse con seguridad en salud. Ilustración artística: DALL-E / Edgary R.

¿Un terapeuta artificial para todos? Oportunidades, riesgos y preguntas abiertas

Este experimento no representa sesiones reales de terapia, sino fragmentos breves basados en situaciones hipotéticas. Aun así, sus hallazgos cuestionan la creencia de que solo los humanos pueden ofrecer respuestas empáticas, culturalmente sensibles y clínicamente apropiadas.

La posibilidad de utilizar IA como asistente en intervenciones de pareja o salud mental no es nueva, pero este estudio ofrece evidencia concreta de su capacidad para generar respuestas de alta calidad.

Esto podría facilitar el acceso a servicios en regiones desatendidas, reducir costos, y complementar el trabajo humano. No obstante, cualquier implementación debe hacerse con supervisión ética, reglas claras y responsabilidad clínica.

Una herramienta complementaria, no un sustituto del médico

El equipo de investigación de Harvard y Stanford concluye que, si bien los avances en inteligencia artificial son prometedores, los modelos actuales no están listos para reemplazar al juicio clínico humano.

Su uso más responsable, al menos por ahora, es como herramienta de apoyo que ayude a los médicos a organizar información, plantear hipótesis diagnósticas o identificar patrones comunes. Pero siempre bajo supervisión médica.

Además, destacan que el desarrollo futuro debe ir acompañado de criterios éticos sólidos y mecanismos de rendición de cuentas. Esto incluye regular quién es responsable cuando un modelo comete un error, cómo se audita su desempeño, y qué tipo de información personal puede procesar.

Por ahora, el veredicto de los expertos es claro: la IA médica aún no está lista para ver pacientes sola. Necesita comprender mejor el lenguaje humano, adaptarse a la incertidumbre clínica y participar en conversaciones significativas. Solo así podrá integrarse con seguridad y eficacia en el futuro de la atención médica.

Referencias

  • Johri, S., Jeong, J., Tran, B.A. et al. An evaluation framework for clinical use of large language models in patient interaction tasks. Nat Med. (2025). doi: 10.1038/s41591-024-03328-5
  • Hatch, S. G., Goodman, Z. T., Vowels, L., Hatch, H. D., Brown, A. L., Guttman, S., … & Braithwaite, S. R. When ELIZA meets therapists: A Turing test for the heart and mind. PLOS Mental Health. (2025). doi: 10.1371/journal.pmen.0000145

Fuente de TenemosNoticias.com: www.muyinteresante.com

Publicado el: 2025-04-14 11:00:00
En la sección: Muy Interesante

Publicado en Humor y Curiosidades

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *


Mi resumen de noticias

WhatsApp