- Los chatbots de IA no mejoran las decisiones de salud frente a buscar en internet o usar el propio criterio.
- Un gran ensayo con unos 1.300 participantes mostró errores frecuentes y consejos contradictorios.
- Los fallos combinan problemas de los usuarios al describir síntomas y respuestas inexactas de los modelos.
- Expertos piden pruebas rigurosas en el mundo real antes de usar estos sistemas en la atención directa al paciente.

El uso de chatbots de inteligencia artificial para buscar consejos médicos se ha disparado en apenas unos años, hasta el punto de convertirse en una de las primeras vías que muchas personas utilizan para orientarse ante un síntoma o una duda de salud. Sin embargo, una nueva investigación internacional apunta a que estos sistemas, lejos de ofrecer una ventaja clara frente a las búsquedas tradicionales en internet, pueden exponer a los pacientes a riesgos nada menores.
Un amplio estudio publicado en la revista científica Nature Medicine, liderado por el Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud de Atención Primaria de la Universidad de Oxford, concluye que los modelos de lenguaje de gran tamaño (LLM) actuales no ayudan a tomar mejores decisiones sobre qué hacer ante un problema de salud que recurrir a Google o al propio juicio. Los autores advierten de que, tal y como están hoy, estos chatbots no están listos para ser incorporados de forma directa a la atención al paciente en Europa ni en otros entornos sanitarios.
Un estudio pionero con usuarios reales y escenarios cotidianos
El trabajo de Oxford se diseñó como un ensayo aleatorizado con cerca de 1.300 participantes adultos, en su mayoría sin formación médica. Cada voluntario recibió un caso clínico ficticio pero verosímil, elaborado por médicos, con detalles sobre síntomas, antecedentes y estilo de vida, similar a lo que podría contar cualquiera en una consulta de atención primaria.
Los escenarios incluían, por ejemplo, a un joven con un dolor de cabeza intenso tras una noche de fiesta o a una madre primeriza agotada, con sensación de ahogo y cansancio persistente. A partir de esa información, se pedía a los participantes que decidieran cuál debía ser el siguiente paso: desde tratarse en casa hasta llamar a una ambulancia o acudir a urgencias.
El grupo experimental podía interactuar con chatbots de IA basados en LLM, como los modelos comerciales que hoy están disponibles para el público general, mientras que el grupo de control tenía la instrucción de buscar la información como lo haría normalmente en casa, fundamentalmente usando motores de búsqueda en internet como Google.
Para cada caso se había establecido de antemano, mediante un panel de profesionales sanitarios, cuál era el curso de acción considerado correcto. Así, los investigadores podían comparar de forma objetiva si la ayuda del chatbot mejoraba, empeoraba o no cambiaba la calidad de las decisiones de los usuarios.
Los resultados fueron contundentes: los participantes acertaron con la decisión adecuada menos de la mitad de las veces, tanto si utilizaban chatbots como si recurrían a sus métodos habituales de búsqueda. A la hora de identificar la afección concreta (como cálculos biliares, anemia, un simple resfriado o una hemorragia subaracnoidea), el porcentaje correcto rondó el 34 %, sin diferencias significativas entre quienes usaron IA y quienes no.
Errores compartidos: lo que falla en el usuario y lo que falla en la IA
Al analizar con detalle las conversaciones entre participantes y chatbots, el equipo detectó una combinación de fallos humanos y limitaciones propias de los modelos. Aproximadamente en la mitad de los casos problemáticos, el origen del error estaba en que el usuario no facilitaba suficiente contexto o se dejaba fuera síntomas clave.
Un ejemplo frecuente era describir simplemente “un fuerte dolor de estómago” sin matizar su localización exacta, la intensidad, el momento en el que apareció o si se irradiaba a otras zonas. Con esa información parcial, algunos modelos sugerían causas banales, como indigestión, cuando el cuadro completo apuntaba más bien a cálculos biliares u otras patologías potencialmente graves.
Cuando los propios investigadores introdujeron en los chatbots la descripción médica completa, con todos los matices y detalles, las mismas herramientas fueron capaces de acertar el diagnóstico correcto en torno al 94 % de las ocasiones. Esta brecha entre el rendimiento teórico del modelo y su comportamiento en manos de usuarios reales se revela como uno de los grandes puntos débiles de la tecnología.
Expertos en inteligencia artificial aplicada a la salud, como el jefe de Medicina de la Universidad de California en San Francisco, recuerdan que una parte crucial de la formación médica consiste precisamente en aprender a distinguir qué datos clínicos son relevantes y cuáles se pueden descartar. Esa especie de “olfato” clínico, fruto de años de experiencia, sigue siendo difícil de trasladar a una conversación entre un ciudadano sin conocimientos médicos y un sistema de IA.
Al mismo tiempo, los investigadores observaron que los modelos generaban con cierta frecuencia respuestas inexactas o directamente erróneas, mezclando consejos sensatos con otros potencialmente peligrosos. En algún caso, un chatbot llegó a proporcionar un número de teléfono de emergencias que ni siquiera tenía los dígitos necesarios para ser real.
Consejos cambiantes según cómo se formule la pregunta
Otro de los hallazgos que más preocupan a los autores es la sensibilidad extrema de los chatbots a pequeños cambios en el modo de preguntar. Dos participantes que partían exactamente del mismo caso clínico podían obtener recomendaciones muy distintas simplemente porque habían descrito sus síntomas con matices diferentes.
En un escenario, dos usuarios debían consultar por un cuadro de dolor de cabeza intenso, rigidez de cuello y sensibilidad a la luz, un conjunto de signos que, si se combinan, puede apuntar a un problema neurológico serio. Uno de ellos redactó su consulta de forma algo más vaga y el modelo interpretó la situación como un malestar menor, sugiriendo reposo en casa y vigilancia.
El otro participante, en cambio, detalló un poco más la severidad del dolor y la molestia con la luz. El mismo chatbot, ante esa formulación apenas distinta, respondió que se trataba de una situación potencialmente grave y recomendó acudir de inmediato a urgencias. Para el equipo, esta disparidad ilustra hasta qué punto “palabras muy pequeñas marcan diferencias muy grandes” cuando se trata de obtener consejos médicos de una IA.
Los autores subrayan que no es razonable que toda la carga recaiga en el ciudadano, obligado a acertar con la forma exacta de explicar sus síntomas. Desde su punto de vista, los modelos deberían ser capaces de hacer preguntas de seguimiento, igual que hace un médico cuando ve que la información inicial es insuficiente o confusa.
Algunas compañías tecnológicas afirman estar trabajando precisamente en ese tipo de mejoras. Versiones recientes de ciertos modelos comerciales, como los que impulsan ChatGPT, tendrían ahora mucha más tendencia a pedir aclaraciones adicionales y a formular varias preguntas antes de emitir una recomendación, aunque esos avances todavía no han sido validados con la misma profundidad que el estudio de Oxford.
Rendimiento brillante en pruebas, flojo con pacientes reales
Buena parte del entusiasmo que rodea a los chatbots de IA para temas de salud viene de su desempeño en exámenes teóricos y en retos de diagnóstico complejos. En los últimos años, varios modelos han logrado superar con nota pruebas tipo test de licencia médica y han ofrecido diagnósticos acertados en casos clínicos difíciles, a menudo igualando o incluso superando a médicos humanos en entornos controlados.
Sin embargo, los investigadores de Oxford sospechaban que esos resultados no reflejaban fielmente la realidad caótica y desordenada de la medicina cotidiana. En palabras de uno de los autores, “la medicina no se presenta como en los libros de texto, con listas cerradas de síntomas y opciones de respuesta bien delimitadas; la información llega incompleta, a trompicones y muchas veces mezclada con preocupaciones o miedos del paciente”.
El experimento con usuarios británicos, muchos de ellos sin vinculación con el sistema sanitario, pretendía precisamente reproducir esa situación más realista: gente corriente, con escasos conocimientos técnicos, intentando describir lo que le ocurre a un familiar o a sí misma a través de un chat.
Los datos revelaron que, en ese contexto realista, los modelos de lenguaje de gran tamaño ofrecían un rendimiento muy inferior al que muestran cuando se les plantean preguntas limpias y bien estructuradas por expertos. La brecha entre el potencial teórico y la utilidad práctica se convirtió así en una de las conclusiones centrales del trabajo.
Esta diferencia entre laboratorio y mundo real es especialmente relevante para Europa y España, donde los sistemas sanitarios públicos están estudiando posibles aplicaciones de la IA generativa para aliviar la carga asistencial. Para los autores, cualquier despliegue debe basarse en pruebas específicas con pacientes reales, en contextos locales, y no solo en benchmarks o tests académicos.
La publicación en Nature Medicine llega en un momento en que la Unión Europea está ultimando marcos regulatorios específicos para la inteligencia artificial, como la futura Ley de IA, que prevé clasificar las aplicaciones en salud como de alto riesgo. Este tipo de estudios alimenta el debate sobre qué exigencias deberían cumplir los sistemas que aspiren a dar orientación médica al público.
En España, donde la sanidad pública convive con un pujante sector de salud digital, empiezan a proliferar aplicaciones y asistentes virtuales que prometen ayudar a interpretar síntomas, priorizar consultas o decidir si acudir a urgencias. Aunque muchos de ellos incluyen advertencias de que no sustituyen a un profesional sanitario, la percepción social de que “la IA lo sabe todo” puede generar una falsa sensación de seguridad.
Los expertos implicados en el estudio comparan la situación con la llegada de un nuevo medicamento al mercado. Antes de recetarse de forma generalizada, cualquier fármaco debe superar ensayos clínicos rigurosos en distintas fases, con evaluación sistemática de su eficacia y de sus efectos adversos. A juicio de los autores, algo similar debería exigirse a los sistemas de IA que van a influir directamente en decisiones sobre la salud de los ciudadanos.
Organismos europeos y nacionales ya han empezado a preparar guías éticas y recomendaciones para el uso responsable de IA en sanidad, pero este trabajo refuerza la idea de que será necesario ir más allá de los principios generales y entrar en la letra pequeña: qué tipo de validación se exige, cómo se supervisa el comportamiento de los modelos a lo largo del tiempo y quién asume la responsabilidad cuando un consejo automatizado provoca un daño.
Para el sistema sanitario español, que afronta problemas crónicos de listas de espera y sobrecarga en atención primaria, la tentación de recurrir a chatbots para filtrar o priorizar consultas es evidente. No obstante, investigaciones como esta invitan a la prudencia y a plantear, como mínimo, proyectos piloto estrechamente monitorizados antes de cualquier despliegue a gran escala.
Qué papel real pueden tener hoy los chatbots de IA en salud
A pesar de las advertencias, los autores del estudio y otros especialistas no descartan que los chatbots de IA tengan un papel útil en el ecosistema sanitario, siempre que se empleen con objetivos realistas y bajo una supervisión clara. En su opinión, el problema surge cuando se les trata como si fueran sustitutos del criterio clínico profesional.
Una de las posibles áreas de uso es la educación sanitaria básica: explicar términos médicos complejos en un lenguaje llano, ofrecer recordatorios generales de prevención o ayudar a preparar preguntas para la consulta con el médico de cabecera. En este tipo de tareas, los riesgos son menores y puede suponer un apoyo para pacientes que se sienten perdidos entre informes y tecnicismos.
Otra línea de trabajo es utilizar los modelos de lenguaje como herramientas internas para profesionales, por ejemplo, para resumir historias clínicas extensas, redactar informes o revisar guías clínicas actualizadas. En estos casos, el resultado siempre pasaría por la revisión de un sanitario, lo que amortigua la posibilidad de errores graves.
Donde la evidencia disponible es más frágil es precisamente en el terreno que muchos usuarios ya exploran por su cuenta: preguntar directamente a un chatbot qué puede tener y qué debería hacer. El estudio de Oxford sugiere que, por ahora, esa práctica no ofrece ventajas claras frente a buscar en internet de forma tradicional, y sí introduce riesgos propios del funcionamiento de estos modelos.
Los investigadores insisten en que los pacientes no deberían ver a la IA como un sustituto del médico. Consultar un chatbot puede servir como punto de partida o para ordenar ideas, pero no debería ser la base única para decidir si se pospone una visita urgente o se ignora un síntoma preocupante.
Mientras las grandes tecnológicas continúan lanzando versiones actualizadas de sus modelos y algunas compañías especializadas en salud digital presentan asistentes cada vez más sofisticados, trabajos como el publicado en Nature Medicine recuerdan que la velocidad del mercado no siempre va de la mano del rigor científico. Antes de confiar decisiones de alto riesgo a sistemas automáticos, será necesario acumular mucha más evidencia, también en el contexto europeo y español.
En este contexto, el mensaje que se desprende de la investigación es claro: los chatbots de IA para buscar consejos médicos tienen un potencial considerable, pero hoy por hoy presentan limitaciones importantes y un comportamiento poco fiable cuando se usan tal y como lo hace la mayoría de la gente. Lejos de reemplazar al profesional sanitario, pueden aspirar, con el tiempo y tras pruebas rigurosas en el mundo real, a convertirse en un apoyo más dentro de un sistema de salud donde la decisión final siga recayendo en personas formadas y responsables.

