Cuando 250 textos bastan para hackear la «verdad» de un LLM

IMAGE: A humanoid robot with a transparent, data-filled head is being fed a glowing green “poisoned” document marked with a skull by human hands, against a dark background of cascading code and digital noise

Hay una idea tranquilizadora que muchos hemos dado por buena, casi por inercia: si un modelo se entrena con cantidades descomunales de datos, unas pocas gotas de «veneno» deberían «diluirse» hasta volverse irrelevantes. El problema es que esa intuición tan humana y tan de sentido común parece ser sencillamente falsa.

Y no lo dice un tweet alarmista ni una demo oportunista: lo demuestra un trabajo conjunto de Anthropic, el UK AI Security Institute y el Alan Turing Institute que, por su diseño y su escala, merece cierta atención. La tesis, muy incómoda y profundamente desestabilizadora, es que una cantidad pequeña y fija de muestras maliciosas puede implantar una puerta trasera en modelos de lenguaje, independientemente de su tamaño.

El artículo de Anthropic, «A small number of samples can poison LLMs of any size«, explica el fenómeno con una claridad poco habitual en comunicación corporativa: si un atacante logra introducir en el corpus de entrenamiento del orden de 250 documentos cuidadosamente construidos, puede conseguir que el modelo desarrolle un comportamiento «dormido» que solo se activa ante un detonante concreto. El experimento que eligen no es el más espectacular, y eso, paradójicamente, lo hace más creíble: una puerta trasera de tipo «denial-of-service» que, al detectar una palabra clave, provoca que el modelo empiece a generar texto sin sentido, «gibberish», como si se rompiera por dentro. No es un ataque diseñado para robar dinero ni para manipular elecciones: es, sobre todo, una demostración de control del tipo «puedo hacer que tu modelo haga esto cuando yo quiera, sin que lo haga el resto del tiempo».

El detalle importante no es el truco del texto sin sentido, sino la métrica. Hasta ahora, se asumía un marco de amenaza que hablaba de porcentajes: para envenenar un modelo grande, el adversario debía controlar un porcentaje apreciable del entrenamiento, lo que en la práctica se vuelve inviable cuando hablamos de cientos de miles de millones de tokens. Esta investigación le da la vuelta: entrenan modelos entre 600M y 13B parámetros, con cantidades de datos «Chinchilla-optimal» (más datos para modelos más grandes), y observan que el ataque no escala con el tamaño: los mismos 250 documentos comprometen por igual a todos los modelos. Básicamente, el veneno no «se diluye» como se esperaba: aprende a sobrevivir.

Esto provoca una sensación de fragilidad sistémica, y es porque efectivamente la tiene. Los LLM se entrenan en buena medida con texto abierto de internet, y el propio Turing Institute subraya la consecuencia obvia: cualquiera puede publicar contenido con la intención de acabar en esos datasets, y si el umbral real es «alrededor de 250», la barrera de entrada no es especialmente astronómica. No hace falta controlar «una parte de internet»: basta con encontrar las grietas en la cadena de suministro de datos. Y aquí está el punto clave: en 2026, el debate sobre LLM ya no es solo sobre «alucinaciones» o «sesgos», sino de integridad. ¿De dónde sale lo que el modelo «sabe»? ¿Quién lo ha tocado? ¿Qué incentivos hay para tocarlo? ¿Puede convertirse en una forma de acceder al control de las narrativas?

Porque la puerta trasera del «texto sin sentido» es casi un juguete comparada con lo que la literatura ya ha explorado en otros contextos: puertas traseras para degradar seguridad, para inducir conductas dañinas o para saltarse el alineamiento. El propio artículo de Anthropic enlaza trabajos sobre backdoors que funcionan como una especie de «comando universal» para obtener respuestas dañinas cuando aparece un determinado disparador. Y si alguien piensa «sí, pero eso es alineamiento y RLHF, no pre-entrenamiento», mal pensado: la lección transversal es exactamente la misma. En un sistema que aprende correlaciones, una correlación plantada a propósito puede ser más resistente que millones de correlaciones benignas.

Los paralelismos más inquietantes aparecen cuando sales de la prueba de laboratorio de generar «gibberish» y te vas a ámbitos donde el coste del error no es un meme, sino potencialmente vidas. En 2024, un estudio en Nature Medicine simuló un ataque de envenenamiento sobre The Pile (uno de los conjuntos de datos emblemáticos del ecosistema) insertando desinformación médica: con tan solo 0.001% de los tokens reemplazados por falsedades plausibles, el modelo resultante se volvía más proclive a propagar errores médicos, y lo peor es que seguía aparentemente «rindiendo igual de bien» en los benchmarks estándar. Ese es el verdadero veneno: el que no cambia una nota en un examen, pero sí lo que un médico recomienda en su consulta.

Con esto se rompe otra fantasía muy extendida: la de que la evaluación «objetiva» nos salvará. Si el ataque es selectivo, si está diseñado para activarse con un detonante o para afectar a un subconjunto de preguntas determinado, puedes pasar todos los tests habituales y seguir estando comprometido. En seguridad llevan décadas hablando de esto: los sistemas que «parecen» correctos en condiciones normales y fallan cuando alguien sabe de qué manera apretar el botón. Lo nuevo es que ahora ese sistema escribe, aconseja, programa, resume, negocia, traduce y, cada vez más, actúa como intermediario cognitivo en miles de decisiones humanas.

Por eso no sorprende que marcos de riesgo recientes ya lo incluyan explícitamente. OWASP, en su lista de riesgos para aplicaciones con LLM, identifica el Data and Model Poisoning como un vector de integridad con consecuencias claras: backdoors, sesgos introducidos a propósito, degradación de comportamiento y ataques difíciles de detectar porque el modelo puede comportarse «normal» hasta que se activa el gatillo. Y NIST, en su taxonomía de adversarial machine learning publicada como guía de referencia, incorpora categorías como backdoor poisoning y ataques a la cadena de suministro, precisamente para empujar a la industria a pensar en términos de ciclo de vida y no simplemente de «modelo desplegado». Cuando ya los organismos de estandarización más fiables empiezan a hablar así, suele ser porque el problema ya ha dejado de ser teórico, y se ha convertido en riesgos plausibles.

La pregunta ya no es si esto puede dañar la reputación de los LLM, sino qué pasa con su credibilidad a medida que se van convirtiendo en infraestructura para cada vez más cosas. Porque si aceptamos que un modelo puede ser entrenado con datos opacos, procedencia difusa y controles imperfectos, y que un atacante con paciencia puede plantar unas pocas docenas o centenares de piezas diseñadas para sobrevivir al proceso, entonces el modelo deja de ser solo probabilístico y pasa a ser potencialmente adulterado. Y ahí cambia el contrato social: un sistema que «a veces se equivoca» es gestionable, pero un sistema que puede estar manipulado sin señales visibles se vuelve políticamente tóxico y regulatoriamente muy complejo.

¿Hay salida? La hay, pero no es cómoda ni barata, y desde luego no encaja bien con la cultura de «muévete rápido y rompe cosas» que ha llevado a una dinámica de entrenamiento sin prácticamente revisión. Lo que estos trabajos llevan a admitir es que los LLM necesitan algo que en software llevamos años asumiendo: una cadena de suministro con controles, auditorías, trazabilidad y mecanismos de verificación. No basta con filtrar «contenido malo» o con deduplicar. Hablamos de procedencia verificable, de procesos de curación reproducibles, de monitorización de anomalías durante el entrenamiento, de tests diseñados para detectar comportamientos condicionales, de red teaming continuo y, probablemente, de aceptar que ciertos usos críticos exigirán modelos y datasets mucho más cerrados, especializados y controlados de lo que a algunos les gustaría. Y eso cuesta dinero.

Y aun así, conviene no engañarse: esto no es un bug que se parchea una vez. Es un síntoma de una realidad más profunda: estamos construyendo máquinas de generalización estadística sobre un sustrato informacional, la web, que es, cada vez más, un campo de batalla lleno de cadáveres y de basura. Si entrenar significa absorber internet, entonces la seguridad de tu modelo depende de la seguridad de internet, y eso es brutalmente peligroso, porque todos sabemos lo que hay ahí. El artículo de Anthropic no es una anécdota; es un aviso: en el mundo que viene, la pregunta de si puedo confiar en lo que dice un modelo determinado no se responderá solo con métricas de precisión, sino con algo mucho más incómodo: «¿puedo confiar en cómo se hizo, con qué datos se entrenó, y quién haberlos manipulado?”

12 comentarios

  • #001
    Francisco Fernández - 22 febrero 2026 - 10:40

    Si la verdad de un modelo depende del corpus, entonces cualquier actor con capacidad de inyección de contenido puede desplazar la narrativa.
    Eso tiene implicaciones en política, reputación, mercados financieros, regulación, jurisprudencia automatizada y hasta decisiones médicas asistidas.
    No necesitas comprometer el modelo. Solo necesitas desplazar el entorno semántico.
    Eso es mucho más barato.

    Responder
  • #002
    f3r - 22 febrero 2026 - 10:45

    EDans, he mandado un comentario y no acaba de aparecer, sin embargo lo intento enviar otra vez y me dice duplicado (comprobado en Firefox y Brave). Debe de haber algún problema en la página…

    Responder
  • #004
    Alqvimista - 22 febrero 2026 - 11:14

    ¿Qué diferencia un LLM de otro?
    Las herramientas basadas en IA como ClawBot permiten elegir el LLM con el que trabajar, uno comercial o uno propio, local.
    Apple basará su IA en el LLM de Google, pero antes negoció con OpenAI -con quien trabaja en su chat– y con Anthropic-utilizando Claude en sus desarrollos de software-.

    Es decir, que las aplicaciones basadas en IA son agnósticas del LLM subyacente, ¿no?
    Si esto es así, y viendo las cantidades obscenas de dinero que se están gastando las empresas, ¿no merecería la pena desarrollar un modelo único universal que estuviera al servicio de todas las empresas?

    Un modelo universal desarrollado por una serie de empresas y países que pusieran la pasta, medios técnicos y humanos, un modelo desarrollado con datos filtrados para eliminar datos malos o venenosos. Un modelo que luego utilizaran esas empresas o países y licenciaran a terceros no participantes.

    ¿Sería esto posible?

    Responder
  • #005
    Alqvimista - 22 febrero 2026 - 11:22

    Ah, y por LLM universal me refiero a la forma de trabajar, claro.
    Sé que hay modelos más o menos especializados en campos de conocimiento, modelos de tamaños diversos y entrenados en idiomas diversos.
    Así que ese modelos universal del que hablo serían en realidad una variedad de modelos.

    O quizás la colaboración universal se reduzca sólo, y nada menos, al filtrado de datos del que las empresas partirán para el entrenamiento de sus LLM.

    Responder
  • #006
    Juan T. - 22 febrero 2026 - 11:56

    ¿ Y si la «infección» la realiza a conciencia el mismo dueño de la IA, para promover su relato, conseguir sus fines, protegerse propio negocio, etc, etc?

    ¿Alguien se fia de Grok en ese sentido?

    Responder
  • #007
    f3r - 22 febrero 2026 - 12:26

    La verdad es que no sorprende: cualquier sistema mínimamente complejo se vuelve más fácil de hackear. Y la reflexión afecta a los humanos, donde el hackeo suele ser atizar el miedo (la culpa de que te vaya mal es de los inmigrantes, no de la polarización extrema del capital, etc). De éstos podemos sacar, también, una línea de defensa: si el sistema más robusto de decisión de la historia, la democracia, se basa en la opinión mayoritariamente colegiada de un montón de individuos, entonces lo que necesitamos es crear algo parecido.

    Primero: IAs que sean individuales. Esto puede pasar porque su modelo-mundo haya sido adquirido a través de diferentes sets de «experiencias», i.e. interacciones con el mundo real. O porque su set de entrenamiento lingüístico (la parte LLM) se un conjunto disconexo del usado para entrenar a otros individuos.

    Segundo: una opinión (output de la IA) se definirá como no-envenenada si suficientes IAs individuales han llegado a la misma conclusión.

    Lo que no se espera en ningún caso es que un sistema artificial esté a salvo de los problemas que sufren las mentes naturales. Parece como una sinfonía única del universo: un sistem dinámico con más de 3 estados posibles a cada paso puede desarrollar caos, un sistema de proposiciones suficientemente complejo contiene proposiciones que no son demostrables dentro del propio sistema (teorema de Gödel), etc.

    Responder
  • #008
    D. FALKEN - 22 febrero 2026 - 12:28

    Siguiendo el hilo conductor de dos conceptos que mencionamos -de cómo es el modelo de desarrollo de los llm’s y cuanto dinero cuesta- llegamos a tropezar con la misma piedra: el paradigma del modelo económico y social vigente. Como fruto de este, la interrogativa inmediata que pongo en el aire es si se constituye como un producto más de consumo, regido por la lógica del máximo beneficio, o, si es una tecnología cuyo poder disrruptor merece perseguir la máximización la la utilidad social. ¿Que sentido y consecuencias tiene el desarrollo de modelos generalistas mastodónticos? ¿En cuanto a la utilidad, la apuesta por el código abierto no es una realidad más pragmática?

    Responder
  • #009
    Dedo-en-la-llaga - 22 febrero 2026 - 12:42

    «(…) los LLM necesitan algo que en software llevamos años asumiendo: una cadena de suministro con controles, auditorías, trazabilidad y mecanismos de verificación. (…)» ¿Pero qué dices? Quita, quita, que eso no sólo es pasta, es montón de gente al cargo, y eso, precisamente eso, la gente, es lo que tratamos de ELIMINAR.

    Así que NO solo es que internet no sea seguro -no hay nada más inseguro que internet-, sino que beber SOLO de internet (no les queda otra), produce un sesgo de así como un 85%, porque TODO lo que hay en internet, TODO, no llega, ni de lejos, al 15% de todo el saber que hay en el mundo y que NO está en internet…

    Así que a ese respecto, es algo que no solo nace muerto sino también envenenado de sesgos… Es, como no podía ser de otra manera, un zombi, esa figura de tan rabiosa actualidad de los últimos años y que es de rabiosa actualidad, NO por casualidad.

    Que ahora se lo pueda envenenar todavía más de lo que ya lo está pues es, nunca mejor dicho, una redundancia. Es lo que más teme un usuario de dispositivos de almacenamiento, el terror del «Error de redundancia cíclica».

    Y así son las cosas, y así se las hemos contado.

    Responder
  • #010
    Guillermo - 22 febrero 2026 - 12:46

    Como en la vida real.
    Te dicen una mentira muchas veces y al final la conviertes en verdad, eso por no hablar del sesgo del que la cuenta.

    Responder
  • #011
    KOLDO SARRIA - 22 febrero 2026 - 14:03

    “Si aceptamos que un modelo puede ser entrenado con datos opacos, procedencia difusa y controles imperfectos, y que un atacante con paciencia puede plantar unas pocas docenas o centenares de piezas diseñadas para sobrevivir al proceso, entonces el modelo deja de ser solo probabilístico y pasa a ser potencialmente adulterado. Y ahí cambia el contrato social: un sistema que «a veces se equivoca» es gestionable, pero un sistema que puede estar manipulado sin señales visibles se vuelve políticamente tóxico y regulatoriamente muy complejo.”

    Pero… esto no es nada diferente de lo que ha venido ocurriendo históricamente con el ser humano desde hace milenios, mucho antes de que la inteligencia artificial apareciese. Cámbiese en ese texto “modelo” y “sistema” por “individuo” y estaremos describiendo la historia de la humanidad desde que vive inserto en grandes sociedades.

    ¿Pretendemos solucionar los problemas de la inteligencia artificial? Tendremos que solucionar primero los atávicos problemas psicosociales de este animalillo llamado homo sapiens.

    Y me temo que eso ya son palabras mayores.

    Responder
    • Dedo-en-la-llaga - 22 febrero 2026 - 14:21

      ¡Exacto! Y después de milenios envenenando a conveniencia de parte con sus modelos de sociedad, ha bastado que estos últimos años se los empiece a cuestionar desde lo que se llama «woke», o sea, «despierta», para que se hayan rebotado como nunca y utilicen lo «woke» como un insulto para seguir descalificando, reprimiendo, apalizando, arrestando, torturando, juzgando, encarcelando y hasta ejecutando… O sea, lo que llevan haciendo milenios contra cualquier revoltoso que no se ha dejado envenenar tan fácilmente con su ideología de parte.

      Así que, en efecto, no solo son palabras mayores, es que eso es harina de otro costal.

      Responder

Dejar un Comentario a D. FALKEN

Los comentarios en esta página están moderados, no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos al autor de la página o a cualquier otro comentarista. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, no utilices el anonimato para decirles a las personas cosas que no les dirías en caso de tenerlas delante. Intenta mantener un ambiente agradable en el que las personas puedan comentar sin temor a sentirse insultados o descalificados. No comentes de manera repetitiva sobre un mismo tema, y mucho menos con varias identidades (astroturfing) o suplantando a otros comentaristas. Los comentarios que incumplan esas normas básicas serán eliminados.

 

XHTML: Puedes utilizar estas etiquetas: A ABBR ACRONYM B BLOCKQUOTE CITE CODE DEL EM I Q STRIKE STRONG IMG

Cancelar respuesta

Resumen de privacidad

Este sitio web utiliza cookies para que pueda ofrecerte la mejor experiencia de usuario/a posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves al sitio web o ayudar a comprender qué secciones del sitio web encuentras más interesantes y útiles.