El término «alucinaciones» se ha convertido en la etiqueta más repetida para describir lo que ocurre cuando un modelo generativo produce afirmaciones falsas, inventadas o directamente absurdas.
Es una metáfora potente porque evoca imágenes muy humanas: un cerebro que, bajo algún tipo de estímulo, percibe lo que no existe. Pero es también problemática, porque sugiere una intencionalidad, una experiencia subjetiva, el efecto de alguna sustancia o incluso un trastorno mental, nada de lo cual tiene sentido aplicado a una máquina estadística que predice secuencias de palabras. La realidad es mucho más prosaica: no hay «alucinaciones», sino errores de predicción, inferencias construidas sobre datos defectuosos o incompletos. Sin embargo, es casi imposible desandar el camino: la prensa, la academia y hasta las propias compañías del sector han normalizado el término, y lo más probable es que se quede para siempre, aunque no sea el más adecuado.
El reciente trabajo publicado por OpenAI, «Why language models hallucinate«, acompañado de una explicación divulgativa en su página corporativa, intenta aportar algo de luz sobre cómo se producen exactamente esas llamadas «alucinaciones». Los modelos de lenguaje funcionan ajustando probabilidades: dada una secuencia de tokens, estiman cuál es el siguiente más probable. Esa predicción se apoya en patrones presentes en los datos de entrenamiento, pero esos patrones no siempre reflejan verdades comprobadas. Cuando los datos de entrenamiento son ambiguos, contradictorios o directamente falsos, el modelo sigue completando la secuencia, aunque la respuesta resultante sea inventada. No «miente» ni «imagina»: simplemente sigue una función matemática que no distingue entre lo verdadero y lo falso, salvo en la medida en que esas diferencias se reflejen en los datos de entrenamiento.
Aquí entra en juego un elemento clave que el propio paper subraya: la llamada reward function, o función recompensa, es decir, los incentivos que se diseña que obtenga el algoritmo. Durante la fase de ajuste con refuerzo, la práctica totalidad de las compañías diseñaron sus modelos para que priorizasen la generación de una respuesta, frente a la posibilidad de admitir su ignorancia. En otras palabras, los modelos fueron incentivados a contestar aunque fuese con una baja probabilidad de acierto, porque eso maximizaba la satisfacción de los usuarios y, por tanto, la recompensa del sistema de entrenamiento. Se prefirió la ilusión de omnisciencia, de «máquina que todo lo sabe», a la frialdad de un «no lo sé». Esta decisión, aparentemente pragmática, condiciona el comportamiento de los modelos hasta hoy: son máquinas que, como buenos alumnos deseosos de agradar, siempre dicen algo, aunque no tengan fundamento para ello.
Los grandes actores (OpenAI, Google, Amazon, Anthropic, Perplexity, Mistral…) buscan atajar estas fabricaciones, y van desplegando estrategias para reducirlas, como el uso de Retrieval-Augmented Generation (RAG), de modelos evaluadores, de razonamiento automático, de modelos de coherencia, o el acceso a bases de datos internas. A pesar de estos avances, todos ellos subrayan la imposibilidad técnica de eliminarlas completamente. Los sistemas agénticos, particularmente cuando los agentes trabajan con contextos muy concretos y bien especificados, representan una de las avenidas más prometedoras en este sentido (en unos días contaré más sobre este tema).
Estamos ante la gran paradoja de esta tecnología: las compañías decidieron entrenar sus modelos con absolutamente todo lo disponible: corpus masivos de la web con calidad muy dispar, llenos de información útil, sí, pero también de ruido, errores, basura, teorías conspiranoicas y propaganda. El objetivo era acelerar el avance, lograr modelos capaces de cubrir cualquier ámbito del conocimiento humano, y hacerlo además en un tiempo récord. Verificar o filtrar mediante fact-checkers esas ingentes cantidades de texto con las que se alimentaba el algoritmo habría sido carísimo, lento, difícilmente escalable y, además, habría recibido innumerables acusaciones de subjetividad. La apuesta fue sacrificar precisión a cambio de amplitud, como reconocen no solo OpenAI, sino también investigadores en otras compañías y universidades. El resultado ha sido un ecosistema de modelos poderosísimos, pero incapaces de garantizar que lo que dicen sea cierto.
¿Qué habría ocurrido, cómo habría evolucionado este panorama, si se hubiera tomado la decisión contraria? Si los modelos hubieran sido entrenados únicamente con fuentes verificadas, fidedignas y con autoridad, y si además hubiesen sido incentivados para reconocer sus límites, tal vez hoy tendríamos sistemas menos versátiles, pero mucho más fiables. Modelos que no respondieran a todo, pero que rara vez incurrieran en errores groseros. Una inteligencia artificial «lenta pero segura», que pudiera servir como referencia académica o profesional con la misma fiabilidad que una buena enciclopedia en manos de un usuario adecuado. Es, en cierto modo, lo que algunos proyectos alternativos, como los intentos de integrar verificación en tiempo real o los experimentos con bases de datos cerradas y curadas, están explorando. Pero el mercado, la presión competitiva y la lógica del «moverse rápido» empujaron en la dirección contraria: mejor un modelo que conteste cualquier cosa y proporcione la ilusión de omnisciencia, aunque se equivoque a menudo, que otro que conteste poco, pero siempre con el debido rigor.
Posiblemente deberíamos dejar de hablar de «alucinaciones» y sustituirlo por una descripción más técnica de lo que realmente ocurre: errores probabilísticos de predicción. Pero lo cierto es que el término ya ha echado raíces, porque además encaja con una narrativa atractiva y mediática. Al igual que en su día el término «nube» se impuso como metáfora para describir un conjunto de servidores distribuidos, el de “alucinaciones” se ha impuesto para describir un fenómeno que no tiene nada de místico, de químico ni de psicológico, pero que suena más sugerente de lo que realmente es.
Lo intrigante, y lo que debería hacernos reflexionar, es hasta qué punto nos hemos acostumbrado a convivir con esos errores. Sabemos que los modelos alucinan, pero seguimos usándolos, fascinados por su capacidad de generar lenguaje coherente y útil en la mayoría de los casos, y por la confianza en nuestra habilidad para desenmascarar esos errores y eliminarlos del producto final. Quizá en el futuro veamos un giro hacia modelos más pequeños y especializados, entrenados con fuentes mucho más rigurosas y con incentivos mejor diseñados para admitir incertidumbre, que se complementen con los grandes modelos generalistas. O tal vez acabemos por resignarnos a un mundo en el que toda producción automática de texto requiere, necesariamente, una capa de verificación humana (lo cual, desde el punto de vista de alguien que se dedica a la enseñanza, tampoco parece mala cosa). En cualquier caso, conviene tener claro que no son las máquinas las que «alucinan», sino nosotros los que decidimos qué entrenar, cómo entrenarlo y qué recompensas ofrecer.
Using this link, you can also read this article in English for free on my Medium page, «Reward functions, training data, and the real cause of AI hallucinations«


Está muy claro: Las respuestas de los LLMs serán tan fiables como las fuentes con las que se entrenen.
Un LLM experto en medicina, por ejemplo, debería entrenarse con bibliografía (tanto libros, capitulos como papers) sobre medicina, información toda ella contrastada.
En definitiva, yo veo el futuro profesional de los LLMs en agentes especializados entrenados con información fidedigna.
Lo demás es crear un sistema que sirve como pasatiempos, pero del que no te puedes fiar ni un pelo. Y a veces, como sucede mucho en informática, es más fácil reescribir un código que buscar el error en el que ha dado como respuesta un LLM.
Saludos.
El problema es que esas mismas LLMs también leen sobre los beneficios del té homeopático de turno para una doula en un parto y te lo puede sugerir con total tranquilidad: amplitud vs veracidad.
Tal vez el nuevo unicornio de Silicon Valley o (como se llama el chino?) Beijing sea un software que pueda validar determinadas respuestas como verdaderas o falsas. Una máquina de la verdad que sea capaz de contrastar datos de fuentes y clasificarlas como más fiables o menos fiables.
Por ejemplo, lo de dar a luz en tu casa es una opción pero en muchos blogs de médicos, hospitales, etc. se dice que semejante opción no está exento de riesgo y tienen buena reputación. Así que si 15x buena reputación desdice a 3x de mediana reputación, se asigna un valor más bajo en la escala a la verdad de dar a luz en tu casa como la mejor opción del mundo mundial.
Lo mismo con las vacunas
Tocas varios temas sumamente interesantes:
a) Probabilidades básicas, muy básicas, Teorema de Bayes, p.ej. deberían bastarnos para entender que el contraste de predicción vs realidad incluye siempre 4 opciones: positivo ok, negativo ok, falso positivo y falso negativo ( estos dos últimos serían el equivalente a las alucinaciones, y obviamente se intenta minimizar su impacto, pero eliminarlos del todo, es en efecto imposible).
b) Aprendizaje automático, de modo genérico, usando Redes Neuronales Artificiales o cualquiera de sus equivalentes, se sustenta en una teoría matemática bien establecida ya y que técnicamente no son más que métodos y teoremas para minimizar el error, pero no eliminar. Se puede ver p.ej. en M. Bishop «Pattern Recognition and Machine Learning», 2004, Ch. 5 ( es la edición que tengo yo, pero posiblemente exista alguna más actualizada).
c) Producir software a prueba de fallos… poderse, se puede, pero es extremadamente costoso en tiempo, dinero y especialistas. Por ejemplo, toda el área de métodos formales para sistemas críticos: Defensa, Aeroespacial, Nasa, y algunas partes ( solo, que yo sepa, pero no todo) del diseño del núcleo de algunos sistemas operativos. En la U.P. de Valencia hay una larga tradición de investigación en dicha área ( María Alpuente, p. ej.) o en la NASA, Laura Titolo ( aunque ahora con los recortes del Idiot In Chief, se ha pasado a alguna compañía de IA, en efecto…
Ejemplo:
https://link.springer.com/book/10.1007/978-3-642-04570-7
La consecuencia es que en efecto, tal y como indicas, los errores ( mal llamados alucinaciones, término q además es una antropomorfización sumamente interesada) son sencillamente inevitables.
Si tu buscas en la Wikipedia respuesta a una pregunta, nadie garantiza que la respuesta que obtengas sea válida al 100% sin embargo en los casos de error a nadie se le ocurre decir que la Wiki8pedia sufre «alucinaciones».
Hay herramientas que o funcionan o están rotas, como las bombillas o una cerradura de una puerta, pero hay herramientas en las que el fallo de funcionamiento no supone avería del aparato, por ejemplo un martillo o un fusil no siempre dan en el blanco, pero cuando no lo hacen, nadie dice que sufran «alucinaciones», si no que el que maneja la herramienta es poco hábil en su uso. Un martillo en manos de un carpintero o un fusil en manos de un campeón olímpico de tiro, falla mucho menos que en manos de un manazas.
Me hace el efecto que las AI son de este tipo de herramientas cuya efectividad depende en gran medida del «prompt» que se les suministra. Mi experiencia es que «si no buscas las cosquillas» a la AI, las respuestas son correctas. De todas forma quien ha confundido la AI con el Oráculo de Delfos no ha comprendido el alcance que la herramienta que utiliza.
Hay varios factores más allá de un entrenamiento con datos de poca calidad por los que un resultado puede ser erróneo con un LLM:
Que la pregunta del usuario sea pobre, lo que induce a un match semántico pobre, y la respuesta más probable no tenga el score suficiente. Cuando por ejemplo le hacemos una pregunta de primeras, y luego le corregimos y le damos más pistas y acierta a la segunda, es culpa nuestra por prompt pobre, o que el dato interno no esté bien formulada
Cuanto más material se le introduzca en un RAG, más fácil es que la salida no es buena. Un RAG se acopla a la ventana de contexto del LLM. Es por eso que esos documentos se trocean. Lo que hace el sistema EXTERIOR al LLM es ofrecer en esa ventana los K mejores trozos (por match semántico) por tanto a más volumen de bibliografía más probabilidades de que haya más dispersión en la búsqueda
Otro factor es la capacidad del LLM a hacer su trabajo, que en caso de un RAG, simplemente es redactar una respuesta con los chunks que el que hace el match le ha ofrecido (retrieval). He probado modelos de 1.5B y 7B de la misma casa (qwen2.5) y el mayor siempre ofrece mejores resultados, digamos que procesa mejor.
El RAG gratuito, que mejor funciona en este orden son NotebookLM y el engendro que tengo a medio montar en local. Y en la última versión de LMStudio he visto que con qwen2.5 7b y un RAG mínimo dos documentos tiene resultados en modo chat similares a lo que consigo con mi engendro, pero resumiendo(haciendo resumenes) es bastante peor..
Repito: Con un RAG local, el modelo no alucina porque le da la gana, es el usuario el que no formula bien la pregunta, a un modelo que funciona de una manera (semejanza semántica) y no como queremos que lo haga como si por abajo hubiera magia. No es magia, es la similitud vectorial y el score del coseno… Por eso es importante el prompting.
Otro factor que importa y mucho, es la cantidad de caracteres que hay en un chunk. No es lo mismo que los trozos sean de 500 o de 1000… Cuando le haces una pregunta muy específica va a encontrar más detalles que se ajusten en el de 500, si la pregunta es muy abierta, va a encontrar muchos trozos similares y lo que tu buscas no lo encuentra.
Ejemplo: Cargamos un RAG con la especificaciones de 100 medicamentos.
Le preguntamos que nos diga que analgésicos conoce. Entonces si hay una lista de 25 en los 100 pero los trozos son de 500, va a ver una selección de los K=4 mejores, que se le pase al LLM y deja fuera al resto
Si le preguntamos las contraindicaciones de la Aspirina, y son trozos de 500 es más fácil que encuentre el detalle de lo que le preguntamos
Es decir, NO SOLO NO TIENE QUE ALUCINAR EL LLM, también el señor que hace el RAG tiene que ser un INTEGRADOR RAG solvente, porque sino lo que te va a hacer es el coño de la Sra. Bernarda…
Muy interesante, vaya que si.
Del mismo modo, el concepto de Inteligencia Artificial tampoco parece muy correcto, porque en realidad no es una inteligencia. No aún al menos. Machine learning siempre lo vi más preciso, pero IA sin duda vende más.
Que tenga “alucinaciones” a mi me funciona básicamente porque cuando dice alguna locura me sale decir: se le ha ido la pelota xD
De hecho, fue #JINCHO, el mismo de los comentarios de aquí arriba,
que hace no muchos días recomendó este video:
La gran mentira de la Inteligencia Artificial
…puta madre… que gozada de entrevista… que bocanada de aire fresco, que placer escuchar sabiendo que a quién escuchas es a un CIENTÍFICO y no al CEO vendemotos de alguna tecnológica enamorado del sonido de su propia voz.
Pero no me creas, si no tienes tiempo ahora, solo baja hasta el área de comentarios y mira lo que dicen.
En lo que puedas, te separas dos horitas de tiempo este finde, te enfrías una cerveza, algún bocadillo, y a disfrutar.
Todo el mérito es de Ramón López de Mántaras.
El cursillo que hice con expertos mundiales de IA bajo su dirección fue precisamente así, una pasada ( y fue 2 semanas después del 11S-NY, con lo que hubo ponentes que no pudieron acudir a dar sus conferencias aquí a Valencia).
Tiene otro video de otra conferencia, pero no me guardé referencia ni enlace y en él trataba precisamente algo sobre lo que también se habla bastante por aquí: la conducción automática. Exactamente igual, poniendo los puntos sobre las íes.
Justo me lo estoy escuchando ahora. Muy interesante, es una pena que a veces pierdan el hilo del concepto que tratan de aclarar. Sin duda toca tenerla en cuenta, gracias!.
Me hizo gracia porque no hace mucho hablaba con un amigo que me parecía horrenda la sensación de como el mundo está siendo usado como conejillo de Indias para poner a prueba estos modelos desde el principio, y como ha causado barbaridades que se han considerado “daños colaterales” necesarios. Y justo este hombre citó la misma idea de manera muy rotunda.
Y es que ante semejante cantidad de información mediocre es muy fácil sentirte más ignorante de lo que igual eres.
Al final, es muy importante ser preciso, porque al final, salvando las distancias y solo como ejemplo, se está llamando artista a una impresora. Gracias por compartir.
“Incapaces de garantizar que lo que dicen es cierto” (EDans).
Supongo que te refieres a la IH (también).
Cuando le escuché al científico de Yo robot hablar sobre eso le llamé exagerado … ahora pienso
que en trescientos o cuatrocirntos añitos puede no ser tsn exagerado… sobre todo dada la dejsdez de la IH por cumplir con su obligación evolutivs… y yo no le doy sl trumpismo una vids muy largs, pero… somos impredecibles
.
La gente se creecualquier cosa, porque la fe sigue siendo el basamento mental… incluso siendo clandestina… por qué lo va a hacer peor una IA muy bien entrenada(nada que ver con lo llamado actualmente IA) los cantamsñanas de todo topo que nos rodean.. puede que ellas no caigsn rn el sesgo del cuñadismo… eso que siempre se llamó endogamia universitaria… y, al mismo tiempo, el sesgo de “yo lo hago mejor que tú”… qué motivo tienen “las máquinas” para ser tan mediocres???
En Yo robot le fsltó un toque mecanocuántico/genético, pero mejor “non meneallo”…
Ah, y discrepar con Gorki hoy, porque a lo que se llamará IA “en condiciones”, SI hay que buscarle las rosquillas (y a fondo)!!!
«Si te sientas junto al rio el tiempo suficiente acabarás viendo pasar el cuerpo de tu enemigo». Este refrán o cualquiera de sus variantes, resume a la perfección lo que es mi opinión sobre la IA: ante una nueva tecnología que aparentemente se presenta como disruptiva, la pregunta fundamental debe ser si tiene trampa y donde puede estar esa trampa, pues en efecto, si esperas el tiempo suficiente, la trampa acaba saliendo. No hay que olvidar lo que dijo Carl Sagan: grandes afirmaciones requieren grandes pruebas. Sirve para la IA, para la computación cuántica, para la conducción autónoma…
En IA, basta con revisar algunos manuales académicos para darse cuenta de ello ( Russell and Norvig, Palma…) . El problema es que poner el foco en ámbitos llenos de vendehumos, puede acabar provocando un demérito( que ya ha pasado con anterioridad, los «inviernos de la IA») de los verdaderos avances en corto de la IA, los de pasito a pasito, los de «Si ya está en un programa comercial plenamente funcional…ya no es IA» ( de un libro de Ríos o de Del Brío).
Nuestras universidades e institutos de investigación ( que los hay, y muy buenos) están repletos de científicos brillantes en IA que pueden dar mejor relato de la verdadera medida de los avances que hay en IA que lo que hacen un montón de CEOs a los que les interesa más la pasta que la verdadera funcionalidad de lo q venden.
Después de cienes de veces de decir que llamarles alucinaciones era no tener ni la más mínima, ni la más remota idea de lo que es una alucinación, ahora nos avisan de que se les seguirá llamando así.
Y nadie se pregunta por qué no pueden responder «no sé» en todas sus variantes. Responder no sé, NO tiene en absoluto que ver con la estúpida disyuntiva de si más rápido o más lento, si más preciso o más difuso, nada qué ver… Y, lo que es peor, no sólo JAMÁS dicen no sé, sino que NO pueden dejar de decir… Siempre responden. Y eso tiene que ver con el sistema en el que vivimos… La locura de que todo es saber, y la idioted de que el silencio NO es aceptable como respuesta.
Claro, como que el capitalismo, además de ser un cerdo vendiendo jamones, el capitalismo, tomad nota, ES RUIDO. Put*** mierda de ruido…