- Las alucinaciones en LLM son errores factuales presentados con alta confianza y se originan en datos ruidosos, objetivos de entrenamiento y mala calibración de incertidumbre.
- El método geométrico usa embeddings y el desplazamiento pregunta–respuesta en el espacio vectorial para identificar desviaciones respecto a patrones de respuestas correctas en cada dominio.
- La detección geométrica se complementa con grafos de conocimiento, verificación multi-perspectiva y entropía semántica para ofrecer un sistema más robusto de control de alucinaciones.
- Los enfoques modernos apuntan a combinar filtros automáticos y a incentivar que los modelos se abstengan cuando no saben, especialmente en aplicaciones críticas.

Las alucinaciones en modelos de lenguaje se han convertido en uno de los quebraderos de cabeza más serios para cualquiera que esté desplegando IA generativa en productos reales. No hablamos solo de respuestas un poco imprecisas, sino de salidas que parecen muy convincentes y, sin embargo, son falsas, incoherentes o directamente inventadas. Cuando esto ocurre en un simple chat de curiosidades puede dar lugar a anécdotas divertidas, pero en contextos sensibles como medicina, derecho o finanzas el margen para el error es mínimo.
A partir de esta preocupación han surgido varias líneas de investigación para detectar cuándo un LLM está “alucinando” sin depender siempre de otro modelo gigante que actúe como juez. Una de las aproximaciones más sugerentes es la que se basa en la geometría de los embeddings, es decir, en cómo se sitúan preguntas y respuestas en un espacio vectorial de alta dimensión. Pero no es la única: también se exploran técnicas con grafos de conocimiento, verificación multi-perspectiva, análisis de entropía semántica o sistemas multiagente, además de enfoques centrados en enseñar al modelo a decir “no lo sé” cuando toca.
Qué es una alucinación en IA y por qué es tan problemática
En el contexto de la IA generativa, una alucinación es una salida factualmente incorrecta, infiel al contexto o sin apoyo en ninguna fuente, presentada con un tono de seguridad que no se corresponde con la realidad. El modelo no está “mintiendo” en sentido humano, simplemente está completando la secuencia de texto que le parece más probable.
Conviene distinguir entre alucinaciones intrínsecas y extrínsecas para entender mejor de dónde vienen y cómo cazarlas. Las intrínsecas se producen cuando el modelo contradice información que ya está en el propio enunciado o en los documentos de contexto adjuntos: por ejemplo, si en el prompt se indica que “la capital de Francia es París” y aun así responde que es Lyon.
Las alucinaciones extrínsecas aparecen cuando el modelo añade datos que no se derivan de lo que se le ha dado: fechas que nadie ha mencionado, informes inexistentes, citas inventadas, referencias a un “tercer Premio Nobel” de Marie Curie o a “informes de 2045” que no aparecen en ninguna parte. Son especialmente peligrosas porque suenan plausibles y el usuario no tiene forma sencilla de verificarlas al instante.
En ambos casos, el patrón de fondo es que el LLM no calibra bien su propia incertidumbre: prefiere rellenar huecos con conjeturas antes que admitir que no sabe algo o que necesita más información. Esta mala calibración hace que los errores pasen fácilmente desapercibidos, sobre todo para usuarios no expertos.
Por qué los modelos de lenguaje alucinan de forma estructural
Las alucinaciones no son un simple bug que se arregle con un parche rápido, sino una consecuencia natural de cómo se entrenan los LLM. Estos sistemas se optimizan para predecir el siguiente token más probable dadas las palabras anteriores, no para decir la verdad ni para saber callarse a tiempo.
Una primera fuente de problemas está en los datos de entrenamiento. Los corpora masivos que se usan hoy combinan webs antiguas, foros, documentos de calidad dispar y, cómo no, errores y desinformación. Con semejante mezcla, es inevitable que el modelo adquiera “hechos” incorrectos junto con patrones útiles, y que luego los reproduzca con la misma seguridad que la información correcta.
También influyen las consultas fuera de distribución: preguntas sobre temas muy recientes, nichos muy técnicos o formatos poco frecuentes. En esas zonas grises el modelo se ve obligado a extrapolar a partir de patrones débiles, con lo que aumenta la probabilidad de que rellene los huecos con pura invención. Esto es especialmente visible en dominios de alta especialización como oncología, derecho tributario o regulación financiera.
Desde el punto de vista algorítmico, los LLM trabajan con co-ocurrencias estadísticas de palabras. Si “Sídney” aparece muchísimo más asociada a “Australia” que “Canberra”, no es raro que el modelo responda que la capital del país es Sídney. A sus ojos probabilísticos, la secuencia “capital de Australia – Sídney” está muy bien respaldada en los datos, aunque sea errónea a nivel factual.
Durante el entrenamiento se añade otro elemento: el sesgo de exposición. Mientras aprende, el modelo ve siempre la secuencia correcta completa (con “teacher forcing”), pero en inferencia se alimenta de sus propias predicciones. Un pequeño desvío temprano puede generar una bola de nieve de tokens cada vez más alejados de la realidad, algo que se nota especialmente en respuestas largas.
Por último, la configuración de la decodificación (temperatura, top-k, top-p) y las limitaciones de atención en secuencias muy extensas también juegan un papel. Parámetros más creativos hacen que el modelo explore más, lo que puede ser deseable para tareas artísticas, pero peligroso cuando el objetivo es la precisión factual.
Métodos geométricos: detectar alucinaciones en el espacio de embeddings
Más allá de comprobar texto con texto, una línea de trabajo cada vez más interesante mira las alucinaciones desde la óptica de la geometría del espacio vectorial. La idea es aprovechar cómo los modelos modernos representan oraciones y párrafos como vectores (embeddings) en cientos o miles de dimensiones.
En ese espacio, la proximidad geométrica suele reflejar proximidad semántica: textos sobre temas parecidos se agrupan, mientras que contenidos de dominios distintos se alejan entre sí. A partir de aquí, se puede analizar el desplazamiento entre el vector de la pregunta y el de la respuesta para extraer una “dirección típica” de respuestas bien fundamentadas en un dominio concreto.
En la práctica, esto exige construir una colección de pares pregunta-respuesta verificados en el ámbito que nos interese (por ejemplo, soporte legal, atención sanitaria o servicio al cliente). Se generan embeddings para cada pregunta y cada respuesta, y se calcula el vector que va de una a otra. Promediando muchos de estos desplazamientos, se obtiene una dirección característica de “respuesta correcta” en ese dominio.
Cuando el sistema genera una nueva contestación, se repite el proceso: se incrusta la consulta, se incrusta la respuesta y se calcula su vector de desplazamiento. Después se mide el alineamiento angular entre ese vector y la dirección de referencia, usando métricas como la similitud coseno u otras variantes basadas en ángulos.
Si la nueva respuesta se alinea bien con el patrón aprendido, hay indicios de que está en la misma línea que las respuestas fiables del histórico. Si, por el contrario, la dirección se desvía claramente de ese “canal” semántico, es una señal de alerta de que el modelo podría estar inventando información o saliéndose del dominio.
Cómo desplegar un detector geométrico de alucinaciones en entornos empresariales
Desde el punto de vista de ingeniería, este enfoque geométrico necesita tres elementos básicos: un corpus de referencia verificado, un motor de embeddings y un índice vectorial eficiente. Con estas piezas se puede montar un filtro posterior a la generación que sea rápido, barato y relativamente sencillo de mantener.
Primero se prepara una base de datos de pares pregunta-respuesta en el dominio objetivo, curados y revisados por expertos. Esta colección es el “suelo firme” del sistema, porque define qué tipo de desplazamientos geométricos representan contenido fiable en ese contexto. Cuanto más representativo sea el conjunto (distintos tipos de consultas, subtemas, niveles de detalle), mejor se calibrará la dirección media.
Después se selecciona un modelo de embeddings adecuado, idealmente cercano al que utilice el propio LLM o al pipeline de RAG que ya tenga la empresa. Sobre esos embeddings se construye un índice vectorial (por ejemplo, con HNSW, IVF u otras variantes KNN) para poder buscar vecinos y calcular estadísticas de forma eficiente incluso con cientos de miles de ejemplos.
La tercera pieza es la regla de decisión. A partir de los desplazamientos históricos, se puede estimar un rango de similitud coseno típico entre pregunta y respuesta correctas. La lógica operativa consiste en calcular la similitud entre el nuevo vector de desplazamiento y la dirección de referencia, y comparar ese valor con un umbral configurable. Por debajo de cierto nivel, la respuesta se marca como sospechosa.
Integrado en un producto, el flujo habitual es el de filtro posterior: el LLM genera su salida, el sistema geométrico calcula el alineamiento, y según la puntuación se decide si se muestra tal cual, se etiqueta con advertencias, se lanza un reintento con más contexto documental o se envía a revisión humana. La sobrecarga en producción se limita a llamadas de embedding y consultas KNN, operaciones que las plataformas actuales manejan sin problema.
Este método tiene un gancho claro para empresas: reduce la dependencia de modelos adicionales de verificación, baja costes y latencia frente a arquitecturas multi-modelo y se integra bien con infraestructuras que ya usan almacenamiento vectorial para búsqueda semántica, recomendación o analítica.
Limitaciones del enfoque geométrico y riesgos a vigilar
Pese a sus virtudes, la detección geométrica está lejos de ser una bala de plata. Para empezar, su rendimiento depende críticamente de una calibración local por dominio: lo que funciona bien para documentación legal interna puede fallar miserablemente en informes médicos o análisis financieros.
Además, el método presupone que las respuestas correctas comparten un patrón geométrico coherente y que las alucinaciones se alejan de ese canal. En la práctica, puede haber respuestas novedosas pero ciertas que salgan de la dirección media, y alucinaciones muy bien “camufladas” que mantengan la misma orientación global que las respuestas válidas.
Existe también un riesgo teórico de ataques adversariales: un sistema, o incluso otro modelo, podría aprender a generar salidas falsas que preserven la dirección geométrica esperada mientras introducen errores factuales, burlando así el filtro basado en embeddings. Aunque hoy esto suene algo exótico, no es descartable en entornos competitivos o maliciosos.
A esto se suma la deriva en el tiempo. Los modelos de lenguaje, los motores de embeddings y los propios datos de la empresa evolucionan. Si se cambia de proveedor de embeddings o se actualiza el LLM, la geometría del espacio vectorial puede alterarse y la dirección de referencia dejar de ser representativa. Por eso es imprescindible plantear políticas de monitorización y recalibración periódica.
En proyectos reales, lo más prudente es combinar el filtro geométrico con otras capas de protección: verificación de fuentes para respuestas críticas, reglas de negocio, controles de seguridad y, en muchos casos, supervisión humana en el bucle. El enfoque vectorial aporta una señal rápida y barata, pero no sustituye el resto del andamiaje de confianza.
Grafos de conocimiento para que el modelo se auto‑audite
Otra línea muy potente se basa en traducir las respuestas del LLM a grafos de conocimiento y usar esa estructura para que el propio modelo evalúe la veracidad de lo que dice. Es la idea central del trabajo “Lie to Me: Knowledge Graphs for Robust Hallucination Self-Detection in LLMs”, aceptado en la conferencia ICPRAM.
El procedimiento funciona en dos pasos. Primero se toma la respuesta generada y se extraen entidades y relaciones para formar tripletes del tipo “sujeto – relación – objeto”: por ejemplo, “Marie Curie – ganó – Premio Nobel de Química”, “Premio Nobel de Química – año – 1911” o “Marie Curie – descubrió – radio”. El resultado es un grafo que hace explícitos los hechos atómicos contenidos en el texto.
En el segundo paso, el LLM u otro modelo analiza cada triplete de forma aislada y estima la probabilidad de que sea una alucinación. Se le plantean preguntas sencillas alrededor de cada relación y se observa su nivel de confianza. Los tripletes con confianza baja se marcan como sospechosos y, por extensión, se considera que la respuesta puede estar alucinando en esos puntos.
Este enfoque aporta varias ventajas prácticas. Al descomponer el texto en hechos simples, simplifica el problema de verificación: es más fácil juzgar si “X ganó el Nobel en 1911” que evaluar de golpe un párrafo entero. Además, los grafos son una representación muy amigable para aplicar reglas de razonamiento simbólico y para visualizar dónde se concentran los errores.
En los experimentos reportados, este método mejora en torno a un 20 % en F1 y un 16 % en accuracy frente a técnicas previas como SelfCheckGPT, y lo hace sin necesidad de entrenar modelos específicos de detección ni recopilar datasets anotados de alucinaciones. Otra ventaja importante es su carácter agnóstico al LLM: puede funcionar con arquitecturas distintas siempre que el modelo sepa ayudar a extraer entidades y opinar sobre hechos simples.
Eso sí, la calidad de la extracción de grafos es un cuello de botella claro. Si el sistema que convierte texto en tripletes falla al identificar entidades, pierde fechas o simplifica demasiado, la evaluación posterior heredará esos errores. Por otro lado, el método sigue dependiendo del conocimiento interno del propio LLM: si el modelo “cree” erróneamente que Sídney es la capital de Australia, validará ese triplete como correcto.
Detección en caja negra: consistencia multi‑perspectiva y entropía semántica
No siempre se tiene acceso interno a los modelos ni a sus probabilidades, y muchas empresas funcionan con LLMs como servicios de terceros vía API. En ese contexto cobran protagonismo los enfoques de caja negra, que parten de la premisa de que solo podemos ver entradas y salidas textuales.
Una propuesta reciente es la verificación de consistencia multi-perspectiva. La idea es sencilla: se plantean varias versiones o perspectivas de la misma consulta (cambiando el orden, pidiendo resúmenes, reformulando) y se comprueba hasta qué punto el modelo mantiene una historia estable. Si las respuestas difieren demasiado según la forma de preguntar, hay muchas papeletas de que esté alucinando.
Este método fusiona diferentes puntuaciones de consistencia derivadas de esas vistas múltiples y ha mostrado resultados mejores que enfoques que solo miran una formulación. En un escenario experimental con tasas de alucinación altísimas (cerca del 95 %), se consiguió subir la precisión media y alcanzar un área bajo la curva ROC alrededor de 0,83, sin usar recursos externos ni tocar los pesos del modelo.
Relacionado con esta idea, investigadores de Oxford han propuesto otro mecanismo basado en lo que llaman entropía semántica. En este caso, se pide al LLM que responda varias veces a la misma pregunta, típicamente entre cinco y diez ocasiones. Luego se analiza en qué medida difieren semánticamente esas respuestas entre sí.
Cuando la IA se mantiene estable y ofrece contestaciones prácticamente idénticas, la entropía semántica es baja y se interpreta que hay menos riesgo de alucinación. Cuando, por el contrario, las salidas son muy variadas, la entropía aumenta y eso sirve como indicador de que el sistema está “forzando” una respuesta sin un conocimiento sólido detrás. Con este simple truco consiguieron identificar alucinaciones correctamente en alrededor del 79 % de los casos, mejorando en torno a un 10 % a métodos anteriores.
Ambos enfoques comparten una ventaja evidente: son fáciles de integrar en productos que ya usan APIs de LLM sin cambiar el modelo subyacente. El coste, eso sí, es un aumento del número de llamadas al sistema, lo que impacta tanto en latencia como en coste económico por tokens.
Taxonomías lingüísticas, sistemas multiagente y el valor de la abstención
Más allá de la pura detección, hay trabajos que intentan entender mejor las formas lingüísticas que toman las alucinaciones y cómo gestionarlas en flujos de decisión más complejos. Algunos proyectos en servicio al cliente, por ejemplo, definen taxonomías finas de errores: desde falsedades flagrantes hasta desviaciones de tono, intencionalidad o estructura argumentativa.
A partir de estas taxonomías se diseñan sistemas multiagente donde varios modelos colaboran: uno redacta, otro revisa el contenido respecto a una base de conocimiento y un tercero decide si la respuesta se envía, se bloquea o se devuelve al agente redactor para que la mejore. Cuando el “revisor” detecta señales de posible alucinación, puede impedir automáticamente la entrega al usuario final.
Los resultados de este tipo de arquitecturas son prometedores en términos de calidad final, pero su coste computacional hoy por hoy es elevado, ya que implican varias pasadas por modelos de gran tamaño. Son soluciones atractivas para volúmenes medios en contextos de alto riesgo, pero difíciles de escalar a millones de interacciones diarias sin optimizaciones agresivas.
En paralelo, va tomando fuerza una filosofía distinta, centrada no tanto en detectar el error después, sino en enseñar al modelo a reconocer cuándo no sabe algo. Un ejemplo es el enfoque de “Planificación Categorial Bidireccional con Auto-Consulta”, que obliga al sistema a detenerse en cada paso del razonamiento y comprobar si tiene las precondiciones necesarias para seguir.
Cuando el modelo detecta que le falta información, en lugar de inventar, debe formular una pregunta aclaratoria o reconocer explícitamente la laguna. Este patrón, probado en tareas como guías paso a paso o instrucciones técnicas, reduce de forma notable las alucinaciones en aquellos puntos donde se ha ocultado información clave, a costa de hacer la interacción más pausada y menos “mágica”.
Todo esto conecta con un mensaje que ya repiten varios grupos de investigación y empresas como OpenAI: las alucinaciones son un subproducto lógico de entrenar modelos para responder siempre. Si decir “no lo sé” se penaliza igual que fallar, el modelo tiene incentivos para arriesgar. Rediseñar benchmarks, objetivos de entrenamiento y políticas de producto para premiar la abstención en contextos de incertidumbre es una pieza clave del puzle.
Al juntar las distintas piezas —análisis geométrico con embeddings, grafos de conocimiento, verificación multi-perspectiva, entropía semántica, sistemas multiagente y marcos que legitiman la abstención— se dibuja una dirección clara: no basta con hacer modelos cada vez más potentes; es imprescindible dotarlos de mecanismos robustos para detectar cuándo están conjeturando y dar a los equipos de ingeniería y negocio herramientas accionables para gestionar esos momentos de duda en sus aplicaciones reales.

