Los cambios de código cultural de la inteligencia artificial: cuando el idioma, el contexto y la geografía importan más de lo que crees

IMAGE: An AI silhouette at the center of a world map surrounded by speech bubbles in different languages, symbolizing multilingual and culturally aware AI

En la carrera por implementar grandes modelos lingüísticos e inteligencia artificial generativa en los mercados globales, muchas empresas asumen que basta con escoger un modelo en inglés de los que usamos todos, y traducirlo.

Pero si eres un directivo preparándote para expandir la presencia de tu compañía en Asia, Europa, Oriente Medio o África, esa suposición podría ser tu mayor punto débil. En esas regiones, el idioma no es solo un detalle: significa también cultura, normas, valores y lógica empresarial, todo en uno. Que funcione bien en tu idioma no significa nada. Si tu inteligencia artificial no cambia de código, no solo tendrá un rendimiento inferior, sino que además, podría malinterpretar, desalinear o no atender adecuadamente a tu nuevo mercado.

La brecha multilingüe y cultural en los LLM

La mayoría de los modelos principales aún se entrenan predominantemente con un corpus de conocimiento mayoritariamente escrito en inglés, y eso crea una doble desventaja al implementarse en otros idiomas. Un estudio reveló que los idiomas distintos del inglés, y sobre todo, los morfológicamente complejos, suelen utilizar entre tres y cinco veces más tokens (y, por lo tanto, mayor coste y procesamiento) por unidad de texto en comparación con el inglés.

Otro estudio estima que alrededor de 1,500 millones de personas que hablan idiomas con bajos recursos tienen un mayor coste y un peor rendimiento al utilizar modelos convencionales centrados en el inglés.

El resultado: un modelo que funciona bien para usuarios estadounidenses puede tener dificultades en India, en el Golfo Pérsico o en el Sudeste Asiático, y no porque el problema comercial sea más complejo, sino porque el sistema carece de la infraestructura cultural y lingüística para gestionarlo.

Un ejemplo regional interesante

Un buen ejemplo es Mistral Saba, lanzado por la empresa francesa Mistral AI como un modelo de 24B parámetros adaptado al árabe y a los idiomas del sur de Asia (tamil, malabar, etc.). Mistral afirma que Saba «ofrece respuestas más precisas y relevantes que modelos cinco veces más grandes» cuando se utiliza en esas regiones. Sin embargo, también presenta un rendimiento inferior en las pruebas de referencia en inglés. Y es que de eso se trata: el contexto importa más que el volumen. Un modelo puede ser más pequeño, pero mucho más eficiente y, en apariencia, más inteligente para su entorno local.

Para una empresa estadounidense que entra en la región MENA (Oriente Medio y Norte de África) o en el mercado del sur de Asia, esto significa que su estrategia de inteligencia artificial «global» no lo es a menos que respete los idiomas, los modismos, la normativa y el contexto locales.

Costos de tokens, sesgo lingüístico y ROI global

Desde una perspectiva empresarial, el detalle técnico de la tokenización es importante. Un artículo reciente señala que los costes de inferencia para el chino en un modelo entrenado mayoritariamente en inglés pueden ser el doble que para el inglés, mientras que para idiomas como el shan o el birmano, la inflación de tokens puede ser hasta unas quince veces mayores.

Esto significa que si tu modelo utiliza codificación basada en inglés y se implementa en mercados no ingleses, el coste de uso se dispara o la calidad disminuye debido a la reducción de tokens. Y dado que su corpus de entrenamiento estaba muy centrado en el inglés, su «modelo subyacente» podría carecer de profundidad semántica en otros idiomas.

Si a esto le sumamos las diferencias culturales y normativas: tono, referencias, prácticas comerciales, supuestos culturales, etc., obtenemos un conjunto competitivo muy diferente: no se trata ya de si «somos precisos», sino de si «somos relevantes».

Cómo es de importante para directivos que se expanden al otros países

Si lideras una corporación estadounidense o una startup que está expandiendo su presencia en mercados internacionales, existen tres implicaciones:

La selección del modelo no es universal: podrías necesitar un modelo regional o una capa de ajuste especializada, no solo el modelo en inglés más grande que puedas licenciar. Cuanto más «agnóstico al modelo» seas, mejor.
La estructura de costes varía según el idioma y la región: la inflación de tokens y las ineficiencias de codificación implican que su coste unitario en mercados no angloparlantes probablemente será mayor, a menos que lo planifiques.
El riesgo de marca y la experiencia del usuario son culturales: un chatbot que malinterpreta el contexto local básico (por ejemplo, el calendario religioso, los modismos locales, las normas regulatorias) erosionará la confianza más rápido que una respuesta más lenta.

Cómo construir una estrategia de inteligencia artificial multilingüe con conciencia cultural

Para directivos listos para vender, atender y operar en mercados globales, estos deberían ser los pasos prácticos:

Mapear los idiomas y mercados como características prioritarias. Antes de elegir nuestro modelo más grande, enumeremos sus mercados, idiomas, normas locales y prioridades comerciales. Si mercados como el árabe, el hindi, el malayo o el tailandés son importantes, tratémoslos no como «traducciones», sino como casos de uso de primer nivel.
Consideremos modelos regionales o implementaciones conjuntas. Un modelo como Mistral Saba puede gestionar el contenido en árabe de forma más económica, precisa y nativa que un modelo genérico en inglés optimizado.
Planifiquemos la inflación del costo de los tokens. Utilicemos herramientas de comparación de precios. Un modelo puede tener un costo en inglés de X$ por millón de tokens, pero si su implementación es en turco o en tailandés, el coste efectivo puede ser el doble o más.
Ajustemos no solo el idioma, sino también la cultura y la lógica empresarial. Los conjuntos de datos locales no solo deben incluir el idioma, sino también el contexto regional: regulaciones, costumbres comerciales, modismos, marcos de riesgo.
Diseñemos para la evaluación y el cambio activos. No demos por sentado que el modelo global se comportará localmente. Implementemos pruebas piloto, evaluemos con puntos de referencia locales, comprobemos la aceptación de los usuarios e incluyamos la gobernanza local en la implementación.

Una perspectiva ética y estratégica más amplia

Cuando los modelos de inteligencia artificial priorizan las normas inglesas y anglófonas, corremos el riesgo de reforzar la hegemonía cultural. Las ineficiencias técnicas (coste simbólico, diferencial de rendimiento) son síntomas de un sesgo más profundo: qué palabras, idiomas y economías se consideran «centrales» y cuáles «de vanguardia».

Como directivos, resulta tentador pensar en modo «ya traduciremos más adelante». Pero la traducción por sí sola no logra abordar la inflación de tokens, el desajuste semántico o la irrelevancia cultural. El verdadero desafío es lograr que la inteligencia artificial tenga una base local y un alcance global.

Si apuestas por la inteligencia artificial generativa para impulsar tu expansión a nuevos mercados, no trates el idioma como una simple nota al pie. El idioma es infraestructura, la fluidez y el conocimiento cultural son ventajas competitivas. Los costes simbólicos y las disparidades de rendimiento no son sólo técnicos: son estratégicos.

En el mundo de la inteligencia artificial, el inglés significa el camino de menor resistencia. Pero tu próxima frontera de crecimiento podría requerir estructuras lingüísticas, culturales y de costes que actúen más como diferenciadores que como obstáculos.

Elige tu modelo, tus idiomas y tu estrategia de implementación no sólo en función de la cantidad de parámetros, sino también de su comprensión del mercado. De lo contrario, no sólo te quedarás atrás en rendimiento, sino también en credibilidad y relevancia.

(This article was previously published on Fast Company)

#001
Juan T. - 12 diciembre 2025 - 09:37
No había caído en esto.
Pues a ver que LLM tiene narices de meterse con el murciano.
Responder
- Buzzword - 12 diciembre 2025 - 10:18
  Ya se habló aquí mismo hace unos días de lo mismo…
  https://www.enriquedans.com/2025/12/el-precio-de-cada-palabra-por-que-la-soberania-de-la-inteligencia-artificial-sera-la-proxima-batalla-cultural.html
  Esto no es nuevo y es algo que está publicado con sus gráficas hace años…
  https://www.topbots.com/all-languages-are-not-tokenized-equal/
  Responder
  - Enrique Dans - 12 diciembre 2025 - 11:38
    Ya, es que introducir los artículos de Fast Company en mi proceso creativo me está resultando complicado, porque esos los escribo directamente en inglés y con un format diferente que me cuesta algo más de tiempo, y cuando los termino, no puedo traducirlos al español hasta cinco días después. Así que me quedo como «raro», como que he publicado algo, pero no lo puedo discutir hasta varios días después, y por eso en esta ocasión escribí para Fast Company, después vi una portada de The Economist que me animó a escribir sobre el tema en español (pero distinto del de Fast Company porque no podía publicarlo aún), y después traduje el anterior… en resumen, un carajal creativo que me tiene el cerebro loco!
    Responder
    - Buzzword - 12 diciembre 2025 - 13:05
      No, si está bien hablar de ello, es un tema importante, que no recuerdo que lo hubieras tratado antes, por eso he buscado esta mañana las gráficas viendo las diferencias entre idiomas de tokens…
      Y como el token cuando usas una API al final es una unidad monetaria, hacer la misma pregunta sale más caro en un idioma que en otro… que es un colateral interesante (tú lo señalas como estructuras de costes).
      Otro asunto interesante es ver como en los idiomas españoles, gracias a la iniciativa «alia» (tan ninguneada) tenemos buenos traductores «gratuitos»… en variedades como valenciano, aranés… y claro castellano para lenguas extranjeras. O simplemente como revisor de castellano es un joya que no envidia a los grandes.
      Un «extra» que ha venido de la mano son los traductores/optimizadores de prompts a los modelos generadores de imagen. El mismo chatgpt es ahora más tratable y podemos pedirle imágenes de forma más cercana a como hablamos las personas…
      De cara al medioambiente, el usar LLM pequeños también es más ecológico, cuando dices «Un modelo puede ser más pequeño, pero mucho más eficiente y, en apariencia, más inteligente para su entorno local.»
      Es algo que debemos tener en cuenta que no hay buenos o malos LLM, en general, uno pequeño puede ser útil para tenerlo en un móvil, y ahorrar tráfico al grande…. aunque ese «enrrutador de IAs» debe hacerse bien, recordemos lo que le paso a OpenAI en verano…
      Responder
#005
Buzzword - 12 diciembre 2025 - 10:11
El proyecto español precisamente se ha centrado en cuidar el entorno de las lenguas oficiales españolas y sus variedades regionales
https://langtech-bsc.gitbook.io/alia-kit
Para usar esas variedades en local es el mejor (en realidad el único)
Responder
#006
Benji - 12 diciembre 2025 - 10:58
Un artículo interentantísimo que leí en The Guardian (link) ahonda en este tema y lo llama «colapso del conocimiento» ya que solo se contemplan las formas «occidentales» de hacer las cosas, sobre todo en idiomas anglosajones y grecolatinos.
Me pareció superinteresante. La verdad es que The Guardian saca unos artículos interesantísimos y son gratuitos, ahí lo dejo :-)
Responder
- Enrique Dans - 12 diciembre 2025 - 11:34
  The Guardian es posiblemente el mejor periodismo que nos queda…
  Responder
#008
Javier - 12 diciembre 2025 - 11:25
Beatriz Busaniche y el equipo de la fundación Vía Libre a la que ella pertenece, acaban de ganar en Barcelona en el MozFest 2025 con el proyecto EDIA cuyo objetivo (entre otros) es:
…crear una primera alfabetización crítica sobre inteligencia artificial generativa…
y ayuda a entender mucho de lo que aquí se expone.
Responder