Un estudio advirtió que los consejos de salud de los chatbots de IA suelen ser erróneos
Un nuevo informe ofrece una mirada aleccionadora sobre si estos asistentes son buenos a la hora de proporcionar consejos médicos al público.

El experimento reveló que los chatbots de inteligencia artificial no eran mejores que Google –de por sí una fuente defectuosa de información de salud– a la hora de guiar a los usuarios hacia los diagnósticos correctos o ayudarlos a determinar lo que debían hacer a continuación. Y la tecnología planteaba riesgos únicos, ya que a veces presentaba información falsa o cambiaba drásticamente sus consejos en función de ligeros cambios en la formulación de las preguntas.
Ninguno de los modelos evaluados en el experimento estaba “listo para su despliegue en la atención directa al paciente”, concluyeron los investigadores en el artículo de Nature Medicine, que es el primer estudio aleatorizado de este tipo.
En los tres años transcurridos desde que los chatbots de IA se pusieron a disposición del público, el tema de salud ha sido uno de los más consultados por los usuarios.
Algunos médicos atienden de manera regular a pacientes que han consultado un modelo de IA para obtener una primera opinión. Las encuestas han revelado que casi 1 de cada 6 adultos utiliza chatbots para buscar información sobre salud al menos una vez al mes. Las principales empresas de IA, como Amazon y OpenAI, han lanzado productos destinados específicamente a responder a las preguntas de salud de los usuarios.
Estas herramientas han despertado entusiasmo por una buena razón: los modelos han aprobado exámenes de licencias médicas y han superado a los médicos en problemas de diagnóstico difíciles.
Sin embargo, Adam Mahdi, profesor del Oxford Internet Institute y autor principal del nuevo estudio, sospechaba que las preguntas médicas limpias y directas no eran un buen indicador de lo bien que funcionaban para los pacientes reales.
“La medicina no es así”, explicó. “La medicina es caótica, incompleta, estocástica”.
Así que él y sus colegas organizaron un experimento. A más de 1200 participantes británicos, la mayoría sin formación médica, se les dio un escenario médico detallado, con síntomas, detalles generales del estilo de vida e historial médico. Los investigadores dijeron a los participantes que chatearan con el bot para averiguar los pasos a seguir, como llamar a una ambulancia o autotratarse en casa. Probaron chatbots disponibles en el mercado, como ChatGPT de OpenAI y Llama de Meta.
Los investigadores descubrieron que los participantes elegían el curso de acción “correcto” –predeterminado por un panel de médicos– menos de la mitad de las veces. Los usuarios identificaron las afecciones correctas, como cálculos biliares o hemorragia subaracnoidea, alrededor del 34 por ciento de las veces.

Cuando los investigadores analizaron los encuentros con los chatbots, descubrieron que, casi la mitad de las veces, los errores parecían deberse a errores del usuario. Los participantes no introdujeron suficiente información o los síntomas más relevantes, y los chatbots tuvieron que dar consejos con una imagen incompleta del problema.
Un modelo sugirió a un usuario que los “fuertes dolores de estómago” que duraban una hora podían deberse a una indigestión. No obstante, el participante no había incluido detalles sobre la gravedad, la localización y la frecuencia del dolor, que quizá habrían orientado al bot hacia el diagnóstico correcto: cálculos biliares.
En cambio, cuando los investigadores introdujeron el escenario médico completo directamente en los chatbots, estos diagnosticaron correctamente el problema el 94 por ciento de las veces.
Una parte importante de lo que los médicos aprenden en la facultad de medicina es a reconocer qué detalles son relevantes y cuáles hay que descartar.
“Hay mucha magia cognitiva y experiencia para averiguar qué elementos del caso son importantes que se introducen en el bot”, comentó Robert Wachter, jefe del departamento de medicina de la Universidad de California en San Francisco, que estudia la IA en la atención médica.
Andrew Bean, estudiante de posgrado en Oxford y autor principal del artículo, aseguró que la carga de elaborar la pregunta perfecta no debería recaer necesariamente en los usuarios. Dijo que los chatbots deberían hacer preguntas de seguimiento, del mismo modo que los médicos recaban información de los pacientes.



