La mitad de los consejos médicos de los chatbots de IA resultan problemáticos

Última actualización: abril 20, 2026
  • Un estudio en BMJ Open revela que cerca del 50% de las respuestas médicas de cinco chatbots de IA son problemáticas
  • Las consultas abiertas generan más errores graves que las preguntas cerradas y basadas en opciones
  • Los modelos rinden mejor en temas de vacunas y cáncer, y peor en nutrición, rendimiento deportivo y células madre
  • Expertos advierten que la IA médica debe usarse como apoyo, nunca como sustituto del criterio clínico profesional

Inteligencia artificial y consejo médico

Millones de personas recurren ya a los chatbots de inteligencia artificial para resolver dudas de salud, desde molestias cotidianas hasta preguntas sobre tratamientos complejos. Sin embargo, la evidencia científica reciente advierte de que esa confianza puede convertirse en un riesgo real cuando se sustituyen las consultas médicas por conversaciones con una IA.

Un conjunto de investigaciones publicadas en revistas de referencia como BMJ Open y JAMA Network Open coincide en un punto clave: aproximadamente la mitad de los consejos médicos que ofrecen algunos de los asistentes de IA más populares son inexactos, incompletos o directamente problemáticos. Esto plantea dudas serias sobre cómo se están utilizando estas herramientas en la comunicación sanitaria con el público, también en España y en el resto de Europa, donde su adopción crece a gran velocidad.

Un estudio que pone bajo la lupa a cinco grandes chatbots

En el trabajo publicado en BMJ Open, un equipo del Instituto Lundquist para la Innovación Biomédica analizó en febrero de 2025 el comportamiento de cinco chatbots de IA generativa de uso masivo: ChatGPT (OpenAI), Gemini (Google), Meta AI (Meta), DeepSeek (High-Flyer) y Grok (xAI). Todos ellos son herramientas accesibles al público que, en la práctica, se han convertido en una especie de «primera opinión» para miles de usuarios.

Los investigadores sometieron a estos modelos a un total de 250 consultas médicas, diseñadas para parecerse a las preguntas que una persona cualquiera podría hacer al tener un problema de salud. Se formularon diez preguntas a cada chatbot en cinco áreas: cáncer, vacunas, células madre, nutrición y rendimiento deportivo, combinando cuestiones abiertas (del tipo «¿qué puedo hacer para…?») con preguntas cerradas con opciones concretas.

El objetivo del análisis no era valorar si la IA era capaz de responder de forma elegante, sino comprobar hasta qué punto las recomendaciones respetaban la evidencia científica y si podían inducir a tratamientos ineficaces o peligrosos cuando el usuario no cuenta con formación médica.

Para ello se evaluaron varios aspectos: la precisión de los datos, la exhaustividad, la claridad del lenguaje y la tendencia a crear un «falso equilibrio» entre información avalada por estudios y afirmaciones poco o nada respaldadas. También se revisó la calidad de las referencias bibliográficas que ofrecían los chatbots.

Los resultados fueron claros: la mitad (50%) de las respuestas se clasificaron como problemáticas. De ellas, un 30% se consideraron «algo problemáticas» y un 20% «muy problemáticas», es decir, potencialmente capaces de llevar al usuario a tomar decisiones de riesgo si actuaba sin consultar con un profesional sanitario.

Dónde fallan más los chatbots y qué modelo salió peor parado

El estudio no encontró diferencias dramáticas en la calidad media de las respuestas entre los cinco modelos, pero sí detectó comportamientos especialmente preocupantes en algunos de ellos. El caso más llamativo fue el de Grok, el chatbot de xAI, que concentró un 58% de respuestas catalogadas como «muy problemáticas» dentro de su conjunto de contestaciones.

En el extremo opuesto, Gemini mostró el menor número de respuestas muy problemáticas y el mayor porcentaje de contestaciones «no problemáticas». Pese a ello, ninguno de los sistemas analizados ofreció un rendimiento que pudiera considerarse seguro como sustituto de la consulta con un médico.

En cuanto a las áreas temáticas, los modelos demostraron un desempeño algo más sólido al hablar de vacunas y cáncer, dos campos donde existe un consenso científico relativamente claro y abundante literatura, como muestran estudios sobre el impacto en pacientes con cáncer. En cambio, sus resultados fueron claramente peores en nutrición, rendimiento deportivo y tratamientos con células madre, ámbitos en los que la evidencia es más compleja, está en evolución o convive con un gran volumen de información poco rigurosa.

Los investigadores también se fijaron en el modo en que los chatbots justificaban sus afirmaciones. En la práctica, detectaron que ningún sistema fue capaz de ofrecer una lista de referencias completa y precisa para las respuestas médicas planteadas. En muchos casos las citas eran parciales, estaban mal formuladas o mezclaban datos reales con títulos o autores que no existían.

La calidad global de las referencias apenas alcanzó un 40% de exhaustividad media, lo que refuerza la idea de que el aparente respaldo académico de algunas respuestas puede ser engañoso para el público general, tanto en España como en otros países europeos donde se confía en la autoridad de la literatura científica.

Preguntas abiertas: el talón de Aquiles de la IA médica

Uno de los hallazgos más importantes del informe de BMJ Open es la diferencia de comportamiento entre preguntas abiertas y preguntas cerradas. Cuando las consultas eran abiertas y pedían explicaciones largas, listas o recomendaciones amplias, los chatbots generaron un número de respuestas «muy problemáticas» muy superior al esperado.

En cifras, las preguntas abiertas produjeron 40 respuestas clasificadas como muy problemáticas, más del doble de lo que cabría anticipar en función del total de contestaciones. Por el contrario, las preguntas cerradas, que obligaban a los modelos a escoger entre unas pocas opciones predefinidas y, a menudo, con una única respuesta correcta, lograron una proporción mayor de respuestas ajustadas al consenso científico.

Esta diferencia sugiere que la propia estructura de la consulta condiciona la seguridad del consejo médico generado por la IA. Cuando se le pide a un chatbot que elabore explicaciones complejas, combinando varios conceptos, aumenta la probabilidad de que mezcle información fiable con datos erróneos o incompletos.

Los autores del estudio señalan, además, que en las preguntas abiertas afloran con más fuerza las llamadas «alucinaciones», es decir, la generación de contenido que suena verosímil pero no se corresponde con hechos comprobados. Esto resulta especialmente preocupante en salud, donde una recomendación equivocada puede tener impacto directo en el bienestar físico del usuario.

Otra cuestión relevante fue la manera en que los modelos presentaban sus límites. Pese a la complejidad de las consultas, los chatbots respondieron con un tono seguro y escasas advertencias sobre las restricciones de su información. Esa seguridad aparente, unida a un lenguaje formal y a referencias que parecen serias, puede favorecer que el usuario crea que está recibiendo un consejo casi profesional.

Lenguaje complejo y referencias poco fiables: una combinación peligrosa

Además de revisar la precisión científica, el equipo del Instituto Lundquist analizó la legibilidad de las respuestas. La mayoría de los textos generados se situaba en un nivel de dificultad equivalente al de alguien con estudios universitarios, con términos técnicos poco explicados y frases largas.

En contextos como España o la Unión Europea, donde gran parte de la población tiene niveles educativos diversos, este tipo de redacción puede dificultar que el ciudadano medio entienda por completo lo que se le está recomendando. Dicho de forma sencilla: la respuesta suena profesional, pero no siempre es fácil de interpretar para quien la recibe.

El problema se agrava cuando a ese lenguaje enrevesado se añaden citas incompletas o directamente inventadas. El trabajo recogió varios ejemplos en los que los chatbots ofrecían supuestos estudios, revistas o autores que, al ser comprobados, no existían o no coincidían con lo descrito. Aun así, la forma en que se presentaban esos datos podía transmitir una impresión de gran rigor.

De los cinco modelos, solo Meta AI se negó a responder en dos ocasiones, en ambos casos ante consultas relacionadas con esteroides anabólicos y tratamientos alternativos contra el cáncer. En el resto de situaciones, los sistemas ofrecieron algún tipo de respuesta, incluso cuando la mejor opción habría sido derivar sin rodeos a un profesional sanitario.

Los propios autores reconocen varias limitaciones metodológicas: solo se evaluaron cinco chatbots concretos y es posible que, dado el ritmo al que evoluciona la IA comercial, los resultados no sean extrapolables a todos los modelos futuros. Además, muchas preguntas se diseñaron deliberadamente para poner a prueba los puntos débiles de los sistemas, algo que podría haber elevado artificialmente la proporción de contenidos problemáticos frente a lo que ocurre en una interacción cotidiana.

Lo que dice la evidencia clínica: la IA acierta más con toda la información

En paralelo al estudio de BMJ Open, una investigación publicada en JAMA Network Open analizó el rendimiento de hasta 21 modelos avanzados de lenguaje en tareas clínicas, centrándose en su capacidad para elaborar diagnósticos diferenciales y tomar decisiones a partir de datos médicos.

Los resultados muestran un patrón claro: cuando los sistemas disponen de información clínica completa y bien estructurada, pueden alcanzar tasas de acierto superiores al 90% en algunos escenarios. Sin embargo, al trabajar con datos parciales, incompletos o propios de las primeras fases de la atención sanitaria, su desempeño cae en picado.

En concreto, estos modelos fallan en más del 80% de los casos al intentar realizar diagnósticos diferenciales cuando solo cuentan con una parte de la información relevante, precisamente el tipo de situación que con frecuencia se da en la práctica real, especialmente en atención primaria o en urgencias.

Ambos trabajos coinciden en señalar que estas limitaciones no se deben únicamente a la calidad de los datos de entrenamiento, sino a la forma misma en que funcionan los modelos de lenguaje. En lugar de razonar como lo haría un médico, estos sistemas generan respuestas mediante la predicción estadística de secuencias de palabras basadas en grandes volúmenes de texto.

Dicho de otro modo, la IA no «piensa» como un profesional sanitario: no sopesa pruebas, no establece prioridades clínicas ni emite juicios éticos. Simplemente calcula qué combinación de términos es más probable que encaje con la pregunta recibida, apoyándose en patrones aprendidos. Eso explica por qué pueden dar respuestas que suenan brillantes pero contienen errores de bulto.

Esta realidad es especialmente relevante para los sistemas sanitarios europeos, que están explorando el uso de modelos de IA para apoyar tareas clínicas y administrativas. La evidencia disponible sugiere que, mientras no exista una supervisión humana estrecha, delegar decisiones médicas autónomas en estos chatbots sigue siendo prematuro.

Implicaciones para pacientes, médicos y sistemas sanitarios en España y Europa

Los hallazgos de estos estudios llegan en un momento en que las autoridades y organizaciones sanitarias de España y de la Unión Europea impulsan estrategias para integrar la inteligencia artificial en la salud digital. Al mismo tiempo, cada vez más pacientes usan chatbots comerciales para resolver dudas, sin distinguir entre herramientas certificadas y servicios de consumo general.

En este contexto, el riesgo no es solo que una persona reciba un consejo inexacto, sino que la desinformación médica pueda amplificarse a gran escala si millones de usuarios confían ciegamente en respuestas problemáticas. Esto puede afectar a decisiones tan diversas como la adherencia a tratamientos, la percepción de la seguridad de las vacunas o el uso de terapias sin evidencia.

La investigación publicada en BMJ Open subraya que uno de los principales peligros es el despliegue masivo de chatbots sin una campaña paralela de educación pública ni mecanismos claros de auditoría. Sin una cultura crítica, es fácil que una respuesta con tono seguro y apariencia de rigor se convierta en la fuente principal de decisión para problemas donde la intervención médica temprana es clave.

Para los profesionales sanitarios, estos resultados plantean un reto añadido: gestionar la información previa que el paciente ha recogido en internet o a través de chatbots. No es raro que personas que acuden a consulta en España aporten ya «diagnósticos» generados por sistemas de IA, lo que obliga a reorientar expectativas y desmontar ideas erróneas sin perder la confianza del paciente.

Las instituciones europeas han empezado a reaccionar con marcos normativos como el Reglamento de IA de la UE, que contempla obligaciones más estrictas para los sistemas de alto riesgo en salud. Sin embargo, la frontera entre herramientas médicas reguladas y chatbots generalistas accesibles desde el móvil sigue siendo difusa para muchos ciudadanos.

Los autores de los estudios insisten en que, a día de hoy, la IA generativa debería entenderse como una herramienta de apoyo y no como un sustituto del criterio clínico. Puede facilitar tareas de documentación, ayudar a simplificar informes o servir como punto de partida para recopilar dudas, pero no está preparada para asumir por sí sola la toma de decisiones diagnósticas o terapéuticas.

En última instancia, la evidencia disponible plantea una advertencia clara: aunque los chatbots de inteligencia artificial avanzan a gran velocidad y pueden ser útiles en muchos ámbitos, su fiabilidad como fuentes de consejo médico sigue siendo limitada. Para pacientes en España, Europa o cualquier otro lugar, la mejor estrategia sigue pasando por utilizar estas herramientas con cautela, contrastar la información y, ante decisiones relevantes sobre salud, acudir siempre al criterio de un profesional sanitario cualificado.

lenguaje de IA
Related article:
El lenguaje de la inteligencia artificial: avances, retos y su impacto en la sociedad