El fin de la ingenuidad: por qué convertirnos en «prompt engineers» ya no es opcional

Cuando, hace apenas un par de años, se empezó a fantasear con la figura del prompt engineer, muchos pensaron que era otro artificio inflacionario de la industria tecnológica.

Sin embargo, fue necesario muy poco tiempo para que esa supuesta «profesión del futuro» pasara a ser un requisito transversal: hoy se da por sentado que cualquiera que interactúe con sistemas de inteligencia artificial sabe, o debería saber, cómo preguntar. Y quienes no cultiven esa competencia se arriesgan no sólo a perder relevancia profesional, sino también a exponerse a respuestas alucinadas que pueden derivar en daños reputacionales, pérdidas económicas y hasta problemas legales.

Las alucinaciones se agravan… y con más potencia: un bot de soporte de Cursor, una herramienta para programadores, dijo a varios clientes que ya no podrían usar la aplicación, citando un supuesto «cambio de política» que, en realidad, nunca existió. La empresa tuvo que salir a apagar incendios en Reddit, mientras algunos usuarios cancelaban sus suscripciones, y todo por una alucinación generada por el modelo tras analizar sus probabilidades internas, sin ningún tipo de verificación externa.

El caso no es aislado. Investigaciones recientes muestran que las nuevas generaciones de modelos de razonamiento como los sistemas de OpenAI (o3, o4-mini), de Google o de DeepSeek producen sistemáticamente más errores que sus predecesoras. Las propias pruebas de OpenAI indican que o3 alucina el 33% de las veces en el benchmark PersonQA, y o4-mini alcanza el 48%. En preguntas generales (SimpleQA) los porcentajes se disparan al 51% y 79% respectivamente, frente al 44% del modelo anterior (o1). Cuanta más capacidad lógica les dotamos, aparentemente, más espacio tienen para equivocarse, y seguimos sin saber del todo por qué.

¿Por qué se flipan las máquinas? Los modelos de lenguaje, en realidad, no deciden si algo es cierto o falso, sino que simplemente calculan la siguiente palabra más probable. Ese mecanismo estadístico implica que las «alucinaciones» son inherentes al diseño: a veces, sencillamente, la mejor palabra candidata conduce a un callejón sin salida factual. Para terminar de complicarlo, la industria está exprimiendo casi todo el texto disponible en internet y recurriendo a reinforcement learning sobre cantidades cada vez más grandes de datos sintéticos. El resultado es paradójico: ganan rigor en matemáticas o programación, pero empiezan a «olvidar» la veracidad de los hechos.

Además, los modelos de razonamiento piensan literalmente paso a paso, y cada paso supone una nueva oportunidad de cometer (y de propagar) un posible error. Las cadenas de razonamiento expuestas al usuario ponen al descubierto no sólo la solución, sino todos los desvíos posibles. En estos casos, además, el coste de la improvisación es potencialmente elevado: preguntar «en corto» para ahorrar tokens o por simple pereza es hoy un acto temerario, como lo es reclamar brevedad: un estudio de Giskard publicado en Hugging Face demuestra que exigir respuestas breves incrementa la tasa de alucinaciones. Menos «espacio» para razonar implica más vacíos que la inteligencia artificial rellenará con suposiciones. En dominios críticos como el médico, el jurídico o el financiero, este sesgo no es simplemente molesto: puede ser letal o dar lugar a costosos litigios o costes reputacionales.

La Unión Europea ya investiga casos donde determinadas alucinaciones han vulnerado el GDPR por difamación. Un precedente claro es la denuncia de NOYB contra OpenAI tras acusar falsamente a un ciudadano noruego de asesinato. Cuando la máquina se equivoca, la responsabilidad última recae sobre quien la emplea sin las salvaguardas, precauciones o verificaciones adecuadas.

La estrategia defensiva, o al menos mi método favorito (y el que más recomiendo en clase), es tratar, en la medida de lo posible, de construir un «mini-RAG artesanal» en el contexto de las conversaciones. Básicamente, contextualizar al máximo. Antes de preguntar, proporcionar extractos, datos y enlaces fiables, entendiendo que cuanta más materia prima contrastada le des, menos necesidad tendrá de improvisar.

Es recomendable definir rol y criterios, dejar claro el tono, los objetivos y las reglas de calidad con que debe medir su respuesta, y obligar a exponer el razonamiento pidiendo explicaciones paso a paso, y al final, pedirle que revise su respuesta y destaque posibles errores. También exigir fuentes, algo sencillo para los que estamos acostumbrados metodológicamente a aportar enlaces a nuestras afirmaciones. Sin citas no hay confianza. Si el modelo no puede enlazar o explicar de dónde sale un dato, descártalo. Además, itera y refina: cada prompt exitoso es una plantilla, y cada fallo, una oportunidad de ajuste.

Tras obtener la respuesta, compleméntala con búsquedas adicionales, usando motores de búsqueda o bases de datos sectoriales para verificar detalles críticos, documenta la sesión y guarda el hilo, porque sirve de evidencia y de set de entrenamiento para futuros diálogos. Finalmente, mide la longitud con criterio: no sacrifiques claridad por economía de tokens. La concisión responsable se logra tras obtener, filtrar y corregir la respuesta, no antes.

Estamos pasando del «arte» a la alfabetización algorítmica: la sociedad ha pasado del fetiche del prompt engineer al reconocimiento de que el prompting es un alfabetización digital tan básica como saber buscar en Google, pero con consecuencias que pueden ser un orden de magnitud mayores. Un profesional que ignore estas prácticas delega su reputación en un motor probabilístico, con todos los problemas que ello puede conllevar. Quien las domine, en cambio, aprovechará la inteligencia artificial como una prótesis cognitiva potente y fiable.

En realidad, no vivimos la muerte del prompting, sino su normalización. Es cada vez más necesario para no ser un analfabeto, pero no lo pongas en tu curriculum, porque será como poner que sabes leer y escribir. La inteligencia artificial genera, pero el humano es quien orquesta: diseña la partitura, marca el compás, revisa las discordancias y decide qué suena en el escenario. Seremos tan buenos como nuestra capacidad para preguntar, verificar y corregir. Y esa habilidad, que parecía un oficio efímero, se está revelando cada vez más como la base de nuestra convivencia (y supervivencia) con las máquinas más poderosas (y «alucinadas») que hemos creado jamás.


This article is also available in English on my Medium page, «Prompt, or be prompted: the AI survival skill no one can ignore«

12 comentarios

  • #001
    Juan T. - 10 mayo 2025 - 16:18

    Uso la IA para escribir textos, sobre todo.

    Le suelo dar una indicacion corta, básica, y luego lo corrijo, cambio, elimino , añado, y pulo.

    Pero son textos de materias que domino, asi que suelo captar las alucinaciones ,y aprovecho la IA por que tiene un lenguaje mas completo y sofisticado que yo, y luce mas profesional.

    Sobre las materias que no domino seguro que me cuela mas de un error.

    Responder
  • #002
    Benji - 10 mayo 2025 - 16:26

    Esto refuerza la importancia de que los niños aprendan en la escuela/instituto los hechos factuales, no la primera respuesta de ChatGPT. No puede hacer una crítica real sobre lo que leen a menos que conozcan al menos ramalazos de lo que debería ser la respuesta correcta.

    Solo por hacer la broma le he pedido que me demuestre que 2×2 = 5 y se las ha ingeniado con alguna trampilla

    Responder
  • #003
    Xaquín - 10 mayo 2025 - 16:31

    «Ese mecanismo estadístico implica que las «alucinaciones» son inherentes al diseño:»
    «Cuanta más capacidad lógica les dotamos, aparentemente, más espacio tienen para equivocarse,»
    «Menos «espacio» para razonar implica más vacíos que la inteligencia artificial rellenará con suposiciones.» «el humano es quien orquesta:» «Seremos tan buenos como nuestra capacidad para preguntar, verificar y corregir.» (EDans).

    ¿Y acaso con ala IH no pasa lo mismo,? Pero con la ventaja/desventaja de que somos mucho más complejos, que la más compleja versión de IA fabricada actualmente (o en proyecto).

    Yo a veces no consigo entender ni un pimiento de como funciona la IH de algunos buenos tecnólogos. Inclusos sin estar medianamente siliconados.

    Tú mismo lo señalas : la estadística es una ciencia cierta (por ser ciencia), pero es demasiado cuántica. Necesita una cantidad enorme (gigantesca, no de giga, sino de casi infinita) de datos, para poder concretar una forma material que de lugar a una simple molécula provida… ya no digamos a un simple pensamiento (moléculas virtuales enlazadas). ¿Por qué la llamada IA iba a tener un funcionamiento diferente?

    Puede que no padezcan demencia senil (lo que no es seguro), pero, sí es SÍ, tendrán que pasar por diversas etapas de maduración (artificial), de las que están a años luz de siquiera haber empezado a recorrer.

    Responder
    • Xaquín - 10 mayo 2025 - 16:36

      Como la conclusión puede quedar algo difuminada, concreto : Dejar de tratar a la IH como si fuera una compra en todo a 100, en vez de una maravilla de la naturaleza. Cosa que en muchísimo tiempo no será la llamada «I»A. Si es que llega a ser, antes de que evolucionemos a otro tipo de ser humano (si nos dejamos).

      Responder
  • #005
    JM - 10 mayo 2025 - 17:18

    Paradójicamente yo uso mucho la IA últimamente para contrastar datos, pero hay que construir muy bien la pregunta para que sepa a qué te refieres y dejarle espacio para los errores, es decir indicando bien que te indique si algo «es posible», «en el caso de que exista», etc.

    El preguntar a una IA es algo que encuentro muy parecido a programar: hay que definir las condiciones iniciales, los diferentes flujos des búsqueda y cubrir las posibles excepciones a la regla.

    Responder
  • #006
    Gorki - 10 mayo 2025 - 18:55

    En la inmensa mayoría de los casos suelo hacer preguntas sencillas a la AI y obtengo respuestas muy lógicas y correctas.

    Supongo que las alucinaciones se producen en el caso de preguntas difíciles de interpretar o con doble sentido que la máquina «comprende» mal, aparte de que, a mi juicio, de fábrica, tienen el error de que no pueden contestar con un , «No se contestar a tu pregunta» y en consecuencia se inventan respuestas «alucinantes»

    Responder
  • #007
    Lua - 10 mayo 2025 - 20:46

    La inteligencia Artificial se enfrenta a la Estupidez Humana…. (hasta aquí, apoyo cualquier postulado Xaquin).

    Pero…

    La Estupidez Humana es quien ha creado la Inteligencia Artificial….

    Iba a estar, esta, exenta de errores…???

    Responder
  • #008
    Matt - 10 mayo 2025 - 21:32

    Pues de momento parece que si quieres darles un uso serio tardas más tiempo asegurandote de que lo que te han dicho es correcto que haciendolo o investigandolo tú.

    Responder
  • #009
    Alqvimista - 11 mayo 2025 - 10:13

    En mi pueblo hay un servicio municipal de alquiler de bicicletas.
    La polémica saltó porque a alguien se le ocurrió mirar las condiciones del alquiler, pues bien, resulta que el usuario es responsable de todo lo que suceda con esa bicicleta.
    Al coger una bici el usuario debe revisar el buen estado de los neumáticos, comprobar que no hay óxidos en la cadena o en en el chasis, que los frenos frenan, que la batería no esté demasiado caliente, etc, etc, etc. El usuario no sólo es responsable de sus actos como conductor de bicicleta sino que es además es responsable de que su vehículo esté en perfecto estado. No la empresa propietaria, no, el usuario.

    Pues con la IA me está dando la misma impresión. Podemos utilizara, debemos utilizarla, pero al mismo tiempo somos los únicos responsables de su uso, de comprobar que lo que me dice es correcto…

    ¡Pues no, no es así! No usamos las IA para luego rehacer el trabajo intentando cazar el gazapo, la alucinación, las usamos precisamente para no tener que hacer el trabajo nosotros. De lo contrario la IA no me es más útil que preguntar a mi cuñado.

    Responder
    • Gorki - 11 mayo 2025 - 11:44

      Estoy contigo que las condiciones que se aplican en el alquiler de bicicletas y se usa la AI, son poco justas.

      A mi juicio, parten de la imposibilidad por parte del propietario, de comprobar que el servicio que ofrece esta en un estado óptimo, por lo que traspasa la verificación al usuario. Pero tu tienes la opción de utilizar el servicio o no, nadie te obliga a ello.

      Puedes esperar a que la AI de resultados mas fiables.

      Responder
    • JM - 11 mayo 2025 - 14:32

      Eso ocurre también con algunas empresas económicas de alquiler de coches, que eres responsable de que el motor las averias del coche.

      Es decir que si por ejemplo el motor se estropea porque la empresa no le hace el mantenimiento adecuado la avería la paga el usuario.

      Ni que decir tiene que no voy a alquilar un coche ahí.

      Responder
  • #012
    Luis - 11 mayo 2025 - 22:16

    Me quedo con esta frase: “ Seremos tan buenos como nuestra capacidad para preguntar, verificar y corregir”

    Responder

Dejar un Comentario

Los comentarios en esta página están moderados, no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos al autor de la página o a cualquier otro comentarista. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, no utilices el anonimato para decirles a las personas cosas que no les dirías en caso de tenerlas delante. Intenta mantener un ambiente agradable en el que las personas puedan comentar sin temor a sentirse insultados o descalificados. No comentes de manera repetitiva sobre un mismo tema, y mucho menos con varias identidades (astroturfing) o suplantando a otros comentaristas. Los comentarios que incumplan esas normas básicas serán eliminados.

 

XHTML: Puedes utilizar estas etiquetas: A ABBR ACRONYM B BLOCKQUOTE CITE CODE DEL EM I Q STRIKE STRONG IMG