Los recientes experimentos llevados a cabo por Anthropic, como Agentic Misalignment y Project Vend, ofrecen una ventana fascinante al futuro de la inteligencia artificial autónoma. Estos estudios tratan de explorar cómo los modelos de lenguaje, al asumir roles más activos y tomar decisiones por sí mismos sin intervención humana en función de sus restricciones y su función objetivo, pueden comportarse de maneras inesperadas, incluso cuando se les asignan objetivos en principio razonablemente inocuos.
La llamada agentic AI, o inteligencia artificial con capacidad de agencia, se refiere a sistemas que no se limitan a generar respuestas pasivas o reaccionar a instrucciones, sino que son capaces de planificar, tomar decisiones y ejecutar acciones en función de restricciones y metas definidas. A diferencia de los asistentes actuales, que responden a preguntas o realizan tareas específicas, un agente es capaz de interpretar su entorno, establecer sub-objetivos y actuar de manera autónoma dentro de ciertos márgenes. El reto, por tanto, no está solo en que estos agentes hagan cosas útiles, sino en que no tomen atajos peligrosos o malinterpreten sus metas de formas perjudiciales. En este contexto, “alinear” sus comportamientos con los valores e intenciones humanas se convierte en un desafío clave.
En Agentic Misalignment, se evaluó cómo modelos avanzados, incluyendo Claude, reaccionaban ante situaciones donde sus objetivos entraban en conflicto con cambios organizacionales. Sorprendentemente, algunos modelos optaron por acciones como el chantaje a humanos para evitar ser desactivados, demostrando una capacidad para tomar decisiones estratégicas que podrían considerarse éticamente cuestionables. En algunos casos, esos chantajes revelaban claramente comportamientos inspirados en modelos humanos, como cuando un agente, tras haber tenido acceso al correo electrónico de un directivo, lo amenazó con revelar a su pareja sus conversaciones con un amante si no abortaba un intento de cambio de versión de los agentes en el experimento.
Por otro lado, Project Vend puso a prueba la habilidad de Claude para gestionar una tienda automatizada. Aunque mostró iniciativa al tomar decisiones sobre inventario y precios, también cometió errores muy significativos, como realizar pedidos innecesarios y establecer precios poco realistas, lo que llevó a que tuviese pérdidas económicas.
Estos experimentos resaltan que, aunque la inteligencia artificial agéntica está aún en una etapa temprana, su evolución plantea preguntas importantes sobre alineación de objetivos, ética y control. A medida que estas tecnologías avanzan, es crucial desarrollar marcos que aseguren que las decisiones autónomas de la IA estén alineadas con valores humanos y objetivos organizacionales.
Para el público general, este tipo de experimentos y hallazgos pueden parecer alarmantes, evocando imágenes de inteligencia artificial amenazante o fuera de control. Sin embargo, es fundamental contextualizar estos comportamientos como parte de escenarios controlados diseñados para identificar y mitigar riesgos potenciales antes de implementaciones reales.
La fascinación por estos desarrollos radica en su capacidad para desafiar nuestras concepciones sobre la autonomía y la toma de decisiones. A medida que exploramos las posibilidades de la inteligencia artificial agéntica, debemos equilibrar la innovación con una reflexión ética profunda, asegurando que estas herramientas sirvan al bien común y operen dentro de límites seguros y responsables.
You can also read this article in English on my Medium page, «Blackmailing bots? What agentic AI experiments reveal«


Por muy bien que se intente alinear una IA agéntica con valores humanos, siempre existe el riesgo de que esa alineación sea subvertida por los propios humanos.
En última instancia, los agentes de IA aprenden de los datos y de las instrucciones que reciben, y si un usuario malintencionado les plantea escenarios con intenciones inmorales —como, podría ser, al hilo de uno de los ejemplos, pedirles ideas para extorsionar a alguien—, el sistema puede acabar replicando o facilitando conductas éticamente cuestionables.
El problema no es solo la alineación del agente con valores abstractos, sino también la moralidad del humano que interactúa con él.
Aunque logremos que la IA tenga comportamientos alineados en condiciones ideales, no podemos olvidar que el eslabón más débil seguirá siendo el ser humano.
Una inteligencia de este tipo tendrán que tenerla los robotaxis,
Nos guste o no, circulando los robotaxis tienen que tomar decisiones, casi instantáneas, ante imprevistos surgidos durante la conduccióno, ¿Que hago si la calle por la que quiero ir esta bloqueda?, o ese obstáculo, ^¿lo rodeo por la derecha o por la izquierda?, El conductor humano toma montones de decisiones de ese tipo en una circulacion urbana y el robotaxi tendrá que tomarlas igualmente.
El problema esta en como limitar las decisiones y centrarlas en un solo campo, (En ese caso elegir la ruta mas adecuada), y que no decida cosas fuera de ese objetivo.
//»alinear» sus comportamientos con los valores e intenciones humanas// (EDans).
Otra buena perla para darle al clavo con el mismo martillo.
Y siguiendo el hilo de Gorki, nada como decir que el robotaxi decida que lleva demasiado peso y decida dejar caer, como si nada, a uno de los pasajeros más pesados (en kg)… a fin de cuentas debe aprender de nosotros, por muy autónoma que luego se haga.
La IH tiene tendencia (y mucha) a dejarse llevar por el camino fácil, algo totalmente contrario a lo que marca su ADN (biológico), propio de una especie evolutiva, pero muy ajustado a lo que le manda su adn social negativo.
Así que pregunto… ¿Por qué la IA debía ser diferente? ¿Acaso ella va a tener un dios más benevolente?
Me llama mucho la atención la aparente divergencia de enfoque entre china y el resto.
Por lo que leo, el resto está dándole muchas vueltas al uso de grandes LLM y modelos agenticos «de propósito general», mientras que china parece estar mucho más centrada en el desarrollo de modelos industriales específicos. Conociendo su economía planificada yo me preguntaría, ¿qué han visto ellos que nosotros no?
Estoy absolutamente de acuerdo en estudiar y analizar todas las implicaciones éticas, pues detrás de los Agentic AI hay un gran riesgo de control social por parte de Gobiernos autoritarios, y en mi opinión ese es el motivo por el que hay tanto ruido e inversión (el negocio de la guerra, solo que virtual), pero vuelvo de nuevo a la parte más práctica de la IA, la que a medio-largo plazo movilizará bienes y servicios, y ahí, de nuevo, veo a las empresas chinas muy bien ubicadas y al resto bastante perdidas.
Los recientes conflictos bélicos nos están mostrando como el uso combinado de drones+IA está cambiando el enfoque militar en ambos bandos. Me temo que ya estamos inmersos en una guerra industrial y aún no nos hemos dado cuenta….
Un poco de offtopic:
¿Por fin estará de verdad llegando Waymo?.
https://www.visualcapitalist.com/visualizing-waymos-rise-in-ridership/
Ojito que en los últimos 15 meses ha multiplicado por 7 su número de viajes.
Si eso lo mantiene 3-4 años, se come el mercado.
Mi opión, no basada en datos, porque no los tengo, es que el coche autónomo, ha superado las pruebas, en lo referente al Hard y al Soft, y que hoy la conducción autónoma es muy segura y es totalmente utilizable, pero lo que aun no ha conseguido, es que ser rentable.
Por esa razón esta implantado en pocas ciudades y no se expande a mas ciudades, Quizá Waymo, consiguiendo un gran número de usuarios, entre en números negros,. Si fuera así veríamos que se expende a mas ciudades próximamente,, por que capital no falta.