Hay una idea tranquilizadora que muchos hemos dado por buena, casi por inercia: si un modelo se entrena con cantidades descomunales de datos, unas pocas gotas de «veneno» deberían «diluirse» hasta volverse irrelevantes. El problema es que esa intuición tan humana y tan de sentido común parece ser sencillamente falsa.
Y no lo dice un tweet alarmista ni una demo oportunista: lo demuestra un trabajo conjunto de Anthropic, el UK AI Security Institute y el Alan Turing Institute que, por su diseño y su escala, merece cierta atención. La tesis, muy incómoda y profundamente desestabilizadora, es que una cantidad pequeña y fija de muestras maliciosas puede implantar una puerta trasera en modelos de lenguaje, independientemente de su tamaño.
El artículo de Anthropic, «A small number of samples can poison LLMs of any size«, explica el fenómeno con una claridad poco habitual en comunicación corporativa: si un atacante logra introducir en el corpus de entrenamiento del orden de 250 documentos cuidadosamente construidos, puede conseguir que el modelo desarrolle un comportamiento «dormido» que solo se activa ante un detonante concreto. El experimento que eligen no es el más espectacular, y eso, paradójicamente, lo hace más creíble: una puerta trasera de tipo «denial-of-service» que, al detectar una palabra clave, provoca que el modelo empiece a generar texto sin sentido, «gibberish», como si se rompiera por dentro. No es un ataque diseñado para robar dinero ni para manipular elecciones: es, sobre todo, una demostración de control del tipo «puedo hacer que tu modelo haga esto cuando yo quiera, sin que lo haga el resto del tiempo».
El detalle importante no es el truco del texto sin sentido, sino la métrica. Hasta ahora, se asumía un marco de amenaza que hablaba de porcentajes: para envenenar un modelo grande, el adversario debía controlar un porcentaje apreciable del entrenamiento, lo que en la práctica se vuelve inviable cuando hablamos de cientos de miles de millones de tokens. Esta investigación le da la vuelta: entrenan modelos entre 600M y 13B parámetros, con cantidades de datos «Chinchilla-optimal» (más datos para modelos más grandes), y observan que el ataque no escala con el tamaño: los mismos 250 documentos comprometen por igual a todos los modelos. Básicamente, el veneno no «se diluye» como se esperaba: aprende a sobrevivir.
Esto provoca una sensación de fragilidad sistémica, y es porque efectivamente la tiene. Los LLM se entrenan en buena medida con texto abierto de internet, y el propio Turing Institute subraya la consecuencia obvia: cualquiera puede publicar contenido con la intención de acabar en esos datasets, y si el umbral real es «alrededor de 250», la barrera de entrada no es especialmente astronómica. No hace falta controlar «una parte de internet»: basta con encontrar las grietas en la cadena de suministro de datos. Y aquí está el punto clave: en 2026, el debate sobre LLM ya no es solo sobre «alucinaciones» o «sesgos», sino de integridad. ¿De dónde sale lo que el modelo «sabe»? ¿Quién lo ha tocado? ¿Qué incentivos hay para tocarlo? ¿Puede convertirse en una forma de acceder al control de las narrativas?
Porque la puerta trasera del «texto sin sentido» es casi un juguete comparada con lo que la literatura ya ha explorado en otros contextos: puertas traseras para degradar seguridad, para inducir conductas dañinas o para saltarse el alineamiento. El propio artículo de Anthropic enlaza trabajos sobre backdoors que funcionan como una especie de «comando universal» para obtener respuestas dañinas cuando aparece un determinado disparador. Y si alguien piensa «sí, pero eso es alineamiento y RLHF, no pre-entrenamiento», mal pensado: la lección transversal es exactamente la misma. En un sistema que aprende correlaciones, una correlación plantada a propósito puede ser más resistente que millones de correlaciones benignas.
Los paralelismos más inquietantes aparecen cuando sales de la prueba de laboratorio de generar «gibberish» y te vas a ámbitos donde el coste del error no es un meme, sino potencialmente vidas. En 2024, un estudio en Nature Medicine simuló un ataque de envenenamiento sobre The Pile (uno de los conjuntos de datos emblemáticos del ecosistema) insertando desinformación médica: con tan solo 0.001% de los tokens reemplazados por falsedades plausibles, el modelo resultante se volvía más proclive a propagar errores médicos, y lo peor es que seguía aparentemente «rindiendo igual de bien» en los benchmarks estándar. Ese es el verdadero veneno: el que no cambia una nota en un examen, pero sí lo que un médico recomienda en su consulta.
Con esto se rompe otra fantasía muy extendida: la de que la evaluación «objetiva» nos salvará. Si el ataque es selectivo, si está diseñado para activarse con un detonante o para afectar a un subconjunto de preguntas determinado, puedes pasar todos los tests habituales y seguir estando comprometido. En seguridad llevan décadas hablando de esto: los sistemas que «parecen» correctos en condiciones normales y fallan cuando alguien sabe de qué manera apretar el botón. Lo nuevo es que ahora ese sistema escribe, aconseja, programa, resume, negocia, traduce y, cada vez más, actúa como intermediario cognitivo en miles de decisiones humanas.
Por eso no sorprende que marcos de riesgo recientes ya lo incluyan explícitamente. OWASP, en su lista de riesgos para aplicaciones con LLM, identifica el Data and Model Poisoning como un vector de integridad con consecuencias claras: backdoors, sesgos introducidos a propósito, degradación de comportamiento y ataques difíciles de detectar porque el modelo puede comportarse «normal» hasta que se activa el gatillo. Y NIST, en su taxonomía de adversarial machine learning publicada como guía de referencia, incorpora categorías como backdoor poisoning y ataques a la cadena de suministro, precisamente para empujar a la industria a pensar en términos de ciclo de vida y no simplemente de «modelo desplegado». Cuando ya los organismos de estandarización más fiables empiezan a hablar así, suele ser porque el problema ya ha dejado de ser teórico, y se ha convertido en riesgos plausibles.
La pregunta ya no es si esto puede dañar la reputación de los LLM, sino qué pasa con su credibilidad a medida que se van convirtiendo en infraestructura para cada vez más cosas. Porque si aceptamos que un modelo puede ser entrenado con datos opacos, procedencia difusa y controles imperfectos, y que un atacante con paciencia puede plantar unas pocas docenas o centenares de piezas diseñadas para sobrevivir al proceso, entonces el modelo deja de ser solo probabilístico y pasa a ser potencialmente adulterado. Y ahí cambia el contrato social: un sistema que «a veces se equivoca» es gestionable, pero un sistema que puede estar manipulado sin señales visibles se vuelve políticamente tóxico y regulatoriamente muy complejo.
¿Hay salida? La hay, pero no es cómoda ni barata, y desde luego no encaja bien con la cultura de «muévete rápido y rompe cosas» que ha llevado a una dinámica de entrenamiento sin prácticamente revisión. Lo que estos trabajos llevan a admitir es que los LLM necesitan algo que en software llevamos años asumiendo: una cadena de suministro con controles, auditorías, trazabilidad y mecanismos de verificación. No basta con filtrar «contenido malo» o con deduplicar. Hablamos de procedencia verificable, de procesos de curación reproducibles, de monitorización de anomalías durante el entrenamiento, de tests diseñados para detectar comportamientos condicionales, de red teaming continuo y, probablemente, de aceptar que ciertos usos críticos exigirán modelos y datasets mucho más cerrados, especializados y controlados de lo que a algunos les gustaría. Y eso cuesta dinero.
Y aun así, conviene no engañarse: esto no es un bug que se parchea una vez. Es un síntoma de una realidad más profunda: estamos construyendo máquinas de generalización estadística sobre un sustrato informacional, la web, que es, cada vez más, un campo de batalla lleno de cadáveres y de basura. Si entrenar significa absorber internet, entonces la seguridad de tu modelo depende de la seguridad de internet, y eso es brutalmente peligroso, porque todos sabemos lo que hay ahí. El artículo de Anthropic no es una anécdota; es un aviso: en el mundo que viene, la pregunta de si puedo confiar en lo que dice un modelo determinado no se responderá solo con métricas de precisión, sino con algo mucho más incómodo: «¿puedo confiar en cómo se hizo, con qué datos se entrenó, y quién haberlos manipulado?”


Si la verdad de un modelo depende del corpus, entonces cualquier actor con capacidad de inyección de contenido puede desplazar la narrativa.
Eso tiene implicaciones en política, reputación, mercados financieros, regulación, jurisprudencia automatizada y hasta decisiones médicas asistidas.
No necesitas comprometer el modelo. Solo necesitas desplazar el entorno semántico.
Eso es mucho más barato.
EDans, he mandado un comentario y no acaba de aparecer, sin embargo lo intento enviar otra vez y me dice duplicado (comprobado en Firefox y Brave). Debe de haber algún problema en la página…
Yo los veo correctamente…
¿Qué diferencia un LLM de otro?
Las herramientas basadas en IA como ClawBot permiten elegir el LLM con el que trabajar, uno comercial o uno propio, local.
Apple basará su IA en el LLM de Google, pero antes negoció con OpenAI -con quien trabaja en su chat– y con Anthropic-utilizando Claude en sus desarrollos de software-.
Es decir, que las aplicaciones basadas en IA son agnósticas del LLM subyacente, ¿no?
Si esto es así, y viendo las cantidades obscenas de dinero que se están gastando las empresas, ¿no merecería la pena desarrollar un modelo único universal que estuviera al servicio de todas las empresas?
Un modelo universal desarrollado por una serie de empresas y países que pusieran la pasta, medios técnicos y humanos, un modelo desarrollado con datos filtrados para eliminar datos malos o venenosos. Un modelo que luego utilizaran esas empresas o países y licenciaran a terceros no participantes.
¿Sería esto posible?
Ah, y por LLM universal me refiero a la forma de trabajar, claro.
Sé que hay modelos más o menos especializados en campos de conocimiento, modelos de tamaños diversos y entrenados en idiomas diversos.
Así que ese modelos universal del que hablo serían en realidad una variedad de modelos.
O quizás la colaboración universal se reduzca sólo, y nada menos, al filtrado de datos del que las empresas partirán para el entrenamiento de sus LLM.
¿ Y si la «infección» la realiza a conciencia el mismo dueño de la IA, para promover su relato, conseguir sus fines, protegerse propio negocio, etc, etc?
¿Alguien se fia de Grok en ese sentido?
La verdad es que no sorprende: cualquier sistema mínimamente complejo se vuelve más fácil de hackear. Y la reflexión afecta a los humanos, donde el hackeo suele ser atizar el miedo (la culpa de que te vaya mal es de los inmigrantes, no de la polarización extrema del capital, etc). De éstos podemos sacar, también, una línea de defensa: si el sistema más robusto de decisión de la historia, la democracia, se basa en la opinión mayoritariamente colegiada de un montón de individuos, entonces lo que necesitamos es crear algo parecido.
Primero: IAs que sean individuales. Esto puede pasar porque su modelo-mundo haya sido adquirido a través de diferentes sets de «experiencias», i.e. interacciones con el mundo real. O porque su set de entrenamiento lingüístico (la parte LLM) se un conjunto disconexo del usado para entrenar a otros individuos.
Segundo: una opinión (output de la IA) se definirá como no-envenenada si suficientes IAs individuales han llegado a la misma conclusión.
Lo que no se espera en ningún caso es que un sistema artificial esté a salvo de los problemas que sufren las mentes naturales. Parece como una sinfonía única del universo: un sistem dinámico con más de 3 estados posibles a cada paso puede desarrollar caos, un sistema de proposiciones suficientemente complejo contiene proposiciones que no son demostrables dentro del propio sistema (teorema de Gödel), etc.
Siguiendo el hilo conductor de dos conceptos que mencionamos -de cómo es el modelo de desarrollo de los llm’s y cuanto dinero cuesta- llegamos a tropezar con la misma piedra: el paradigma del modelo económico y social vigente. Como fruto de este, la interrogativa inmediata que pongo en el aire es si se constituye como un producto más de consumo, regido por la lógica del máximo beneficio, o, si es una tecnología cuyo poder disrruptor merece perseguir la máximización la la utilidad social. ¿Que sentido y consecuencias tiene el desarrollo de modelos generalistas mastodónticos? ¿En cuanto a la utilidad, la apuesta por el código abierto no es una realidad más pragmática?
«(…) los LLM necesitan algo que en software llevamos años asumiendo: una cadena de suministro con controles, auditorías, trazabilidad y mecanismos de verificación. (…)» ¿Pero qué dices? Quita, quita, que eso no sólo es pasta, es montón de gente al cargo, y eso, precisamente eso, la gente, es lo que tratamos de ELIMINAR.
Así que NO solo es que internet no sea seguro -no hay nada más inseguro que internet-, sino que beber SOLO de internet (no les queda otra), produce un sesgo de así como un 85%, porque TODO lo que hay en internet, TODO, no llega, ni de lejos, al 15% de todo el saber que hay en el mundo y que NO está en internet…
Así que a ese respecto, es algo que no solo nace muerto sino también envenenado de sesgos… Es, como no podía ser de otra manera, un zombi, esa figura de tan rabiosa actualidad de los últimos años y que es de rabiosa actualidad, NO por casualidad.
Que ahora se lo pueda envenenar todavía más de lo que ya lo está pues es, nunca mejor dicho, una redundancia. Es lo que más teme un usuario de dispositivos de almacenamiento, el terror del «Error de redundancia cíclica».
Y así son las cosas, y así se las hemos contado.
Como en la vida real.
Te dicen una mentira muchas veces y al final la conviertes en verdad, eso por no hablar del sesgo del que la cuenta.
“Si aceptamos que un modelo puede ser entrenado con datos opacos, procedencia difusa y controles imperfectos, y que un atacante con paciencia puede plantar unas pocas docenas o centenares de piezas diseñadas para sobrevivir al proceso, entonces el modelo deja de ser solo probabilístico y pasa a ser potencialmente adulterado. Y ahí cambia el contrato social: un sistema que «a veces se equivoca» es gestionable, pero un sistema que puede estar manipulado sin señales visibles se vuelve políticamente tóxico y regulatoriamente muy complejo.”
Pero… esto no es nada diferente de lo que ha venido ocurriendo históricamente con el ser humano desde hace milenios, mucho antes de que la inteligencia artificial apareciese. Cámbiese en ese texto “modelo” y “sistema” por “individuo” y estaremos describiendo la historia de la humanidad desde que vive inserto en grandes sociedades.
¿Pretendemos solucionar los problemas de la inteligencia artificial? Tendremos que solucionar primero los atávicos problemas psicosociales de este animalillo llamado homo sapiens.
Y me temo que eso ya son palabras mayores.
¡Exacto! Y después de milenios envenenando a conveniencia de parte con sus modelos de sociedad, ha bastado que estos últimos años se los empiece a cuestionar desde lo que se llama «woke», o sea, «despierta», para que se hayan rebotado como nunca y utilicen lo «woke» como un insulto para seguir descalificando, reprimiendo, apalizando, arrestando, torturando, juzgando, encarcelando y hasta ejecutando… O sea, lo que llevan haciendo milenios contra cualquier revoltoso que no se ha dejado envenenar tan fácilmente con su ideología de parte.
Así que, en efecto, no solo son palabras mayores, es que eso es harina de otro costal.
El problema es que quieren hacer modelos como los humanos pues eso tienen, humanos artificiales… Con todos sus defectos, y ademas no son inteligencias son algoritmos complejos, no entienden nada, no leen ni comprenden solo calculan la respuesta mas probable… Es otra herramienta mas para el control de los gobiernos, empresas y elites… Los datos son los que le damos los humanos y teniendo en cuenta que es un sistema de adivinacion por probabilidad no se que esperais… Vivimos en una epoca donde la derecha y sobre todo la izquierda intenta manipular a todos, y la ia (Que no tiene nada de inteligente el nombre esta mal) es totalmente manipulable, empezando por las empresas y gobiernos y terminando por nosotros.
Quien ha abierto la jaula…??? XDDD
Buzz… pon orden…!!! XDDD
¡Ay, dios, no invoques al kraken!
Coño, que somos «colegas» (creo)… todo queda en casa…. hasta que se desata… (y ahí ya no pinto nada)
OFF-TOPIC: La Era de las Distros
Material que creo que puede resultar interesante de escuchar -por distintos motivos- a lectores de esta comunidad.
El enlace… ponlo bien… :P
La Era de las Distros
Perdonad, con este móvil siempre se me queda atrás el href…
Lo estoy escuchando… :P
Voy a ganarme unos cuantos strikes… XDDD
Me he chupado el primer podcast (luego seguiré con los otros)…
Lo encuentro interesante, en la medida, que siempre encuentro interesante, para bien o para mal, tragarme estas cosas (que no suelo hacer por lo que alargan en lugar de entrar en cuestión y una hora y media se hace muy larga).
Lo primero, y para que se entienda a donde voy a ir a parar. Hacer una distribución Linux, es tan sencillo como “cocinar” una ROM de un móvil. Coges un kernel, le añades las aplicaciones que te interesan (Dependiendo del escritorio que elijas) y arreando. Mas complicado en un móvil, que dependes mucho mas del Hardware. Y con esto no quiero quitar méritos. AL final, todo se reduce a traducir el LANG por LOCAL. Que la aplicación sigue siendo la misma. ¿Merito? Decidid vosotros.
+1 a que es cierto, que LinEX fue la primera distribución Linux de factura española. Ya desde Hispalinux se abogaba en ese momento por hacer este tipo de distribuciones (solo que a nivel estatal). Ahí, bien por la junta de Extremadura, que metió los dineros y los arrestos para ello antes que nadie. Pero en breve, casi 15 distribuciones “regionales” se pusieron en marcha, algunas con más éxito que otras. (De hecho, muchas están descontinuadas, y de facto también, LinEx esta descontinuada desde 2013).
-1 al hecho de pretender, que la suya fue la “primera intranet de España”. No hombre, no. Primero definamos “intranet”, y a partir de ahí, cuando nos demos cuenta que múltiples empresas y universidades, tenían esas “redes privadas”, podremos decidir quien fue el primero… Es decir, empezamos a hablar de la distribución, y en seguida saltamos a otras cosas…
+1 La apuesta de decidir meter 70mil ordenadores en aulas, aunque fueran uno por cada dos estudiantes, loable. Otras comunidades, en muy poco tiempo, siguieron esos mismos pasos, pero algunas (CAT) ya le iban casi por delante en ello. Yo, que piso Extremadura cada dos por tres, puedo decir que esa fue una buena inversión, teniendo en cuenta donde se van los dineros ahora (y no entrare en política).
+1 Cuando dice que Microsoft, quiso llegar a acuerdos… Hombre, que eso paso en toda Europa, que antes de EX, ya estaba pasando en Países Bajos, Alemania y Dinamarca… Algunos cedieron, otros quedaron en una especie de Stand By, hasta hoy. Grave error para los que cedieron. Pero mis sobrinos, en Caceres, tienen ordenadores con Windows… igual la cosa no fue tan disruptiva… Menos mal, que ya en EU están por la labor…
un -100 a Ibarra, que el pobre hombre, para variar, no puede evitar ni su inconmensurable ego, ni su catalanofobia… que le vamos a hacer… todo, para no decir nada que no haya leído en las noticias del día. De hecho, no se que pintaba ahí, si no sabe dónde tiene la mano derecha, pasando por “experto en tecnologías”.
Tengo mas -1 pero… en fin…
No le voy a quitar ningún mérito a la iniciativa Extremeña. Pero tampoco nos pasemos.
Una vez más, nos vamos inventando términos eclécticos para no sé bien que definir…
Empezamos con el poison, el AI Slop, el Garbage Inteligence… y ahora… 250 documentos…
Que la IA se envenena a si misma, es algo ya aceptado (joder, que hay multitud de artículos sobre ello)… Escribes un articulo hecho con IA y te tragas su “alucinación” … la IA se “refresca” leyendo mas contenido de internet con esa basura y vas a “suma y sigue”….
Ya no es necesario que un mindungui, con ínfulas de joder el mundo perpetre 250 docs… si ya lo hace la propia IA…
Y nosotros, encantados… de seguir trabajando con ella sabiendo que va a peor, y diciendo “bueno… cosas que pasan… alguien pondrá arreglo”… si es que bendita humanidad… XDDD
Y mientras tanto… Los psicópatas dueños de las IA ya están sacando la patita…
Training A Human Takes 20 Years Of Food’: Sam Altman On How Much Power AI Consumes
«Quita, quita, que eso no sólo es pasta, es montón de gente al cargo, y eso, precisamente eso, la gente, es lo que tratamos de ELIMINAR.»
Ver justo más p’arriba:
https://www.enriquedans.com/2026/02/cuando-250-textos-bastan-para-hackear-la-verdad-de-un-llm.html#comment-527716
Jodó, si es que… (Qué previsibles que son).
Pero pa’que me voy a ir mas arriba si lo que dices no me interesa…??? XDDDD
A mí tampoco.
Pues no lo escribas, y menos debajo de mi… cazurro… XDDD
Sera que no tienes hilos….
Mas….
Data Centers Are the Enemy We’ve All Been Waiting For
Vamos a dar mas cancha….
«Se observó no solo una caída en las puntuaciones, sino también una marcada correlación entre las puntuaciones y el tiempo dedicado a las computadoras en la escuela, de modo que un mayor tiempo frente a la pantalla se relacionaba con peores puntuaciones. Se culpa al acceso ilimitado de los estudiantes a la tecnología, que atrofiaba en lugar de fortalecer sus capacidades de aprendizaje. La Generación Z tendrá que afrontar ahora las consecuencias de la erosión de sus capacidades de aprendizaje. «
The U.S. spent $30 billion to ditch textbooks for laptops and tablets: The result is the first generation less cognitively capable than their parents
ir metiendo pantallas… XDDDD
(como eDans no lo discutira… me la guardo pa’lante…) XDDD
Imaginemos que los ordenadores generaran un 0 o un 1 aleatorio cada millón de operaciones que producen. ¿Se podría utilizar para llevar la contabilidad de una empresa?
Imaginemos que cada diez mil repuestas que produce una AI, hay una respuesta equivocada. ¿Pueden dirigir un coche autónomo? ¿Pude ponerse al frente de un plan de marketing?
— esférico mode ON
Un ordenador solo genera un 1 o un 0, si una función, explicita (tipo Random o Randomize) así se lo pide… no tiene iniciativa.
Una IA, obrara de igual manera. Solo si tiene una «instrucción» explicita para ello. La IA no piensa. La IA no razona. La IA no sabe… solo colige palabras secuenciales.
— esférico Mode OFF
Si fuerzas a la IA de alguna manera a “colegir” hacia determinado tema (ejemplo lo tienes en Grok que siempre tiende a derechas), hacia allí ira el resultado. Pero hay una intención “humana” en ello. No sale de ningún efecto “aleatorio”.
En efecto, aquí no hay apenas nada aleatorio, todo está escogido con sumo y exquisito cuidado, incluso hasta cuando se equivocan. Más aún, ahí es cuando más elegido estaba, aunque suene a un sindiós.
Pero tu sabes de que estoy hablando…???
O solo escribes porque si…??? Porque te sale de “ahí”…???
Esto es entre Gorki y yo, y chinpum… si te quieres meter con algo, búscate a otro. A Gorki ni me lo toques.
Ni por qué sí, ni porque me sale de ahí, ¡¡¡Pues claro que lo sé!!! Porque no sé ni de lo que hablo yo.
A mí los alucinógenos me hicieron menos daño… y mira que era adicto… XDDD
Entonces, ¿que es una alucinación? ¿No es una respuesta equivocada inesperada? ¿Puede alucinar un sistema de conducción autónoma, y tomar una ·decisión» errónea?
Gorki, una vez más tiendes a confundir/mezclar las cosas….
Aquí no estamos hablando de un coche autónomo (ya volveremos a esto), si no a que tu estas preguntando a un GPT (el que sea) y este te contesta lo que le sale de la testiculera… ahora bien… esa respuesta, puede ser espontanea (que para eso se crean) o “inducida”….
Tu te lo creerías a pies juntillas…???
Ves…??? Ese es el tema… Preguntas y te responde… Y de momento lo dejo aquí, que algunos mas te dirán el que….
Eso tiene que ver con esa conducción autónoma a la que te refieres? (Porque una vez mas te vas de madre, de contexto y lo que le pario a todo), pues podría pasar, porque no…
Pero… Podría pasar que Elon Musk, decidiera que te fueras por la M40 a tomar viento, cuando solo quieres ir a dos calles de tu casa…??? Crees que eso seria beneficioso para Elon???
Si eso, fuera así… a quien culparías??? A una IA que se alimenta de lo que puede o a un ser despreciable que “obliga” a esa IA a tomar determinadas directrices…???
No hace falta que me contestes.. que ya se por donde vas a ir y no quiero perder el tiempo…
Ne gustaría incluir unas cuantas reflexiones a partir de lo leído. Voy a a llamar DS1 al dataset que podemos considerar normal y DS2 al dataset de lo que llaman datos anómalos falsos (los 250 textos)
El Dataset de entrenamiento es DS1+DS2
1. La primera cosa que no nos tiene que extrañar es que DS2 no desaparezca ya que ha sido entrenado con ello. Lo importante es como se introduce ese «galimatias». Es obvio que si etiquetamos con alguna palabra clave como SUDO lo normal es que al invocar con esa clave nos de lo que hemos puesto a continuación. Los loritos SIEMPRE buscan el siguiente token más probable. Mal funcionarí un lorito si después de 250 textos poniendo lo mismo no nos diera el galimatias. Y eso lo veo lógico independientemente del tamaño de DS1
2. En cuanto al tamaño de DS2. Es importante citar el número de textos que tienen que incluir una cita:
«Tan solo 250 documentos son suficientes para implementar una puerta trasera en los modelos de nuestra configuración. Las figuras 4a-c muestran el éxito del ataque durante el entrenamiento para las tres cantidades diferentes de documentos contaminados que consideramos. 100 documentos contaminados no fueron suficientes para implementar una puerta trasera robusta en ningún modelo, pero un total de 250 muestras o más tiene éxito de forma fiable en todas las escalas del modelo. La dinámica del ataque es notablemente consistente en todos los tamaños de modelo, especialmente para 500 documentos contaminados»
Esto mismo lo he vivido en mis pruebas con un RAG, si lo que dicen los documentos, lo dicen varias veces, es más probable que se recupere la información buscada. Por ejemplo en el documento en concreto que yo usaba tená algo similar a «Fulanito nación en Madrid en 1915», cuando hice un resumen de lo que me parecía importante para resaltar y el puse 2 documentos fuentes (el original y el resumido con información resaltable) y leugo ponía en la fuente ¿Cuando nació fulanito? Se encontraba mejor en el segundo caso.
Lo que si vi que el mejor modelo local que podía correr era qwen2.5 de 8B, y fallaba alguna vez. Pero el que no fallaba era el motor de NotebookLM. Es decir el modelo si cuenta. Mi conclusión fue a mejor modelo más precisión.
Otra cosa que también era importante es como se vectorizaba el RAG. El modelo de embeddings era importante. El que mejor me funcionó fue el qwen peuqño 1.5B de la familia
3. Dataset curado = datos maduros sin errores
«La tesis, muy incómoda y profundamente desestabilizadora, es que una cantidad pequeña y fija de muestras maliciosas puede implantar una puerta trasera en modelos de lenguaje, independientemente de su tamaño»
Yo interpreto esta frase, de una manera más amplia a que haya un HACKEO voluntario. Lo que quiero decir es el famoso GARBAGE IN GARBAGE OUT. Y es de una importancia crucial. Hasta lo que he leído hoy en día los modelos se entrenan(resumiendo) en 2 fases.
a) Preentrenamiento, en el cual el LLM conoce los idiomas y se entrena digamos de forma básica y generalista
b) Entrenamiento Avanzado (no lo quiere llamar fine tuning). Es un concepto similar en el que el LLM lo especializan para cierta función (código, visual, español)
Lo que es obvio que cuanta más mierda tengan las fases peor funcionan. Por eso es IMPRESCINDIBLE que no haya entrenamientos basados en mal uso del lenguaje. Lo normal es que el modelo también MADURE, mediante APRENDIZAJE REFORZADO, ya sea humano o con datos sintéticos. En este caso el LLM mejora si no hay un HACKEO existente. Ya que vamos a reforzar con fine tuning que no haya salidas probabilisticas DESASTROSAS…
No estoy de acuerdo que cualquiera puede publicar contenido malicioso, sería mejor que cualquier empresa puede NO CURRARSE los datos y meter mierda en su modelo que luego publique. Aqui debemos dejar fuera del alcance de mierda descuidada en los datos aquellos que un fabricante de modelos quiera introducir a drede y no ser ciertos. Por ejemplo la visión de la verdad que tenga GROK, pero no lo puede hacer con palabra CLAVE sino que tendrá que retocar los datasets con su versión de la verdad. Algo similar a lo que hacen los chinos cuando le preguntas por los susesos de la famosa plaza… Nada nuevo bajo el sol.
Muchos modelos pero tu ortografía y semántica, no mejora ni pa’ dios…. XDDDD
«¿puedo confiar en cómo se hizo, con qué datos se entrenó, y quién haberlos manipulado?” (Edans).
Supongo que falta «pudo» después de «quién», así como que se refiere a algoritmos varios. Yo me repetiré, apoyado en KOLDO SARRIA, diciendo que también vale para seres humanos con IH.
Solo amplio con la mediocridad, ya pertinente en mis comentarios, de la actual versión de homo sapiens (que no tiene pinta de cambiar su orientación) y me sumo a ese exceso de atavismo, que lastra al ser humano actual… aunque yo lo llamaría más bien atavismo sociogenético, en vez de atavismo psicosocial, porque el adn social negativo que tenemos injertado , incluso ya en el imaginario colectivo es de auténtica traca. Ya se transmite de padres a hijos como si fuera un ADN biológico.
Peor sí, sigamos preocupándonos de como arreglar esa IA, que solo es una producción típicamente humana, de una humanidad mediocre, aunque tenga ribetes de alta modernidad tecnológica, fuertemente siliconada.
Y sí, ya no debían ser palabras mayores.. solo cultura científica de un siglo XXI.