DeepSeek y el cambio de la atención completa a la atención dispersa

IMAGE: Abstract digital artwork of a neural network: the left side shows blue nodes densely interconnected, while the right side features red nodes sparsely connected, with the words “DeepSeek Sparse Attention” integrated into the red side

El desarrollo de la inteligencia artificial no se detiene, y ademas, está respondiendo a una enorme diversidad estratégica entre las compañías norteamericanas, empeñadas en una carrera permanente de acumular más procesadores en data centers cada vez más grandes, frente a unas compañías chinas que, privadas artificialmente del acceso a los procesadores más punteros, innovan mucho más en metodologías matemáticas y metodológicas.

Esto se hizo patente cuando vivimos el lanzamiento de DeepSeek en enero de este año, con un modelo más potente que ninguno de los norteamericanos del momento y entrenado con un coste muy inferior, pero acaba de volver a ponerse de manifiesto con la presentación de DeepSeek-V3.2-Exp, una evolución experimental de su arquitectura anterior.

Lo relevante de este anuncio no es tanto el salto numérico en la versión, sino la introducción de un fascinante mecanismo experimental llamado DeepSeek Sparse Attention (DSA), destinado a mejorar drásticamente la eficiencia tanto en el entrenamiento como en la inferencia, especialmente en escenarios de contexto largo. La compañía, además, ha acompañado este lanzamiento con una drástica reducción de precios en su API (un 50% menos), una estrategia que, combinada con su carácter abierto, supone un desafío muy potente para competidores como OpenAI, Anthropic o Google. El hecho de que DeepSeek opte por liberar sus modelos en código abierto, en contraste con la estrategia mayoritariamente cerrada con leves excepciones de las big tech occidentales, añade una dimensión geopolítica y estratégica interesantísima al debate sobre la democratización de la inteligencia artificial.

Pero lo que realmente convierte a esta propuesta en un cambio de paradigma no es su política comercial, sino su arquitectura. La evolución de la inteligencia artificial se enfrentaba hasta el momento a una paradoja: el mecanismo que sustenta sus mayores logros, el transformer enunciado en el famoso paper «Attention is all you need«, arrastra consigo una limitación fundamental: su mecanismo de autoatención obliga a calcular la relación entre todos los elementos de una secuencia, lo que se traduce en una complejidad cuadrática, n². Una idea adecuada para contextos cortos, pero prohibitiva en términos de recursos computacionales cuando hablamos de analizar libros enteros, grandes repositorios de código o largos documentos legales. En la práctica, es como intentar construir un rascacielos enorme sobre los cimientos de una casita unifamiliar.

La propuesta de DeepSeek con su modelo de Sparse Attention es a la vez elegante y radical: abandonar la conectividad total de todos los elementos. El modelo plantea que no todos los elementos necesitan conectarse entre sí, sino únicamente con un subconjunto relevante y estratégico. Se sustituye así el ruido de fondo de una conversación caótica en la que todos hablan con todos por un diálogo eficiente entre especialistas.

En la práctica, esto se materializa con las llamadas arquitecturas de Mixture of Experts (MoE): en lugar de un modelo monolítico, encontramos un ecosistema de expertos, de redes neuronales más pequeñas y especializadas, que se activan de manera selectiva mediante un mecanismo de enrutamiento dinámico. El modelo completo puede acumular cientos de miles de millones de parámetros, pero cada entrada concreta activa solo a unos pocos expertos, lo que reduce drásticamente el coste computacional sin perder capacidad.

Este planteamiento altera la economía misma del escalado: deja de ser imprescindible apostar exclusivamente por la fuerza bruta, y abre la puerta a modelos capaces de manejar contextos de decenas de miles de tokens de manera coherente. Esa capacidad no es una mera mejora incremental: habilita tareas que antes resultaban imposibles o fragmentarias, como razonar sobre bases de código completas, documentos jurídicos extensos o narrativas largas.

Más allá del avance técnico, la lección es conceptual. La frontera del progreso de la inteligencia artificial no parece estar únicamente en modelos cada vez más grandes y costosos, sino en arquitecturas más inteligentes y eficientes, y repensar la propia esencia de cómo procesamos la información abre un horizonte mucho más fértil que buscar el simple escalado infinito. Nos señala, básicamente, que la próxima frontera del progreso puede que no resida únicamente en construir modelos más grandes, sino en formular arquitecturas más inteligentes. Al repensar la propia esencia de cómo las redes neuronales procesan la información, no estamos simplemente optimizando un proceso; estamos expandiendo el horizonte de lo computacionalmente posible, transitando de una era de restricciones a una de abundancia estratégica e inteligente.

Con DeepSeek-V3.2-Exp, China no solo aporta un modelo experimental más en código abierto, sino que redefine el equilibrio entre potencia, eficiencia y accesibilidad, y plantea tanto un reto directo a la manera en que concebimos el futuro de la inteligencia artificial, como una paradoja en la que la geopolítica contamina la ciencia: si el modelo no proviniese de una compañía china, todo Occidente estaría ya seguramente apostando por él. Ya veremos sus consecuencias.

You can read this article in English on my Medium page, «How DeepSeek’s V3.2 changes everything about AI scaling»

#001
Alqvimista - 2 octubre 2025 - 12:25
Interesante.
¿En qué se diferencia esto de lo que Apple presentó en la WWDC2025? Mezcla de expertos de vía paralela (PT-MoE), lo llamó.
https://9to5mac.com/2025/07/21/apple-details-how-it-trained-its-new-ai-models-4-interesting-highlights/
- Enrique Dans - 2 octubre 2025 - 13:02
  Ufff… en mucho. Tu pregunta es muy buena, pero me vas a hacer escribir un comentario más largo que el propio artículo (y que además me apetece hacer). Veamos: la diferencia es muy grande, pero sobre todo por sus filosofías de diseño completamente opuestas aplicadas a la misma idea base de Mixture of Experts, o MoE. La aproximación de DeepSeek es maximalista, orientada a expandir los límites de la capacidad del modelo en entornos de nube. La de Apple con su Pathways-inspired Transformer Mixture-of-Experts (PT-MoE) es lo contrario, es minimalista, y está radicalmente orientada a la eficiencia en el dispositivo local (on-device).
  Básicamente, las diferencia son el objetivo filosófico y el entorno de ejecución: DeepSeek y otros MoE de nube tienen como objetivo crear un modelo de una escala masiva, con cientos de miles de millones de parámetros, que sea viable de ejecutar. La «eficiencia» aquí implica reducir el coste computacional total para poder desplegar un modelo gigante, que aún así consume muchos recursos pero es manejable en un data center. En cambio, Apple PT-MoE pretende crear un modelo lo suficientemente pequeñito y eficiente como para poder ejecutarse directamente en un iPhone, en un iPad o en un Mac, sin depender de la nube. Aquí, la «eficiencia» significa un consumo minúsculo de memoria y batería. Es una exigencia mucho más extrema.
  Además, y en consecuencia, se diferencian en la escala y en el número de expertos: mientras DeepSeek utiliza un número muy elevado de expertos (pueden ser 128, 256 o más) para lograr un alto grado de especialización y una capacidad de modelo total enorme, Apple PT-MoE recurre a un número muy reducido (en sus ejemplos hablan de 8 o 16 expertos, activando solo dos por token). Es una escala intencionadamente pequeña para que el modelo completo, con todos sus expertos, quepa en la memoria RAM limitada de un dispositivo móvil.
  También se diferencian en el mecanismo de enrutamiento (Router) y la llamada «vía paralela», que es la innovación clave de Apple y la que explica el «Pathways-inspired» en el nombre. En DeepSeek se usa enrutamiento tradicional, el router es una red neuronal que decide a qué expertos enviar cada token. Es una capa más del modelo que debe ser entrenada. En Apple PT-MoE, el Parallel Path Routing implementa un mecanismo de enrutamiento inspirado en su arquitectura Pathways, que es más simple y eficiente computacionalmente. La idea es que el token de entrada sigue vías paralelas. En la vía 1, el token pasa por el experto seleccionado (uno de esos 8 o 16), y en la vía 2 (en paralelo), el mismo token también se procesa por una capa de Feed-Forward Network (FFN) «universal» o compartida. La salida final es una combinación de ambas vías. Este diseño en paralelo es más estable durante el entrenamiento y, crucialmente, más predecible y eficiente en la inferencia, lo que es fundamental para el hardware móvil.
  El manejo de la dispersidad y la carga también es distinto. En DeepSeek, en modelos MoE grandes, un problema común es el «desequilibrio de carga»: que unos pocos expertos sean siempre los más activos y otros se infrautilicen. Esto requiere técnicas de ajuste complejas durante el entrenamiento. En Apple PT-MoE, ql tener muy pocos expertos y un mecanismo de enrutamiento más simple y con la vía paralela, el problema del desequilibrio se mitiga mucho. La carga computacional es más equilibrada y manejable para el sistema.
  DeepSeek viene a ser como una oficina central gigante con 128 departamentos especializados (expertos). Para cada tarea, un gerente (router) envía la información a los dos departamentos más relevantes. El sistema es enorme, pero eficiente para su escala. Apple PT-MoE es como una oficina pequeñita satélite ultramoderna con solo ocho especialistas. Para cada tarea, se aplica un protocolo simple (enrutamiento de vía paralela): la información va a un especialista concreto, pero al mismo tiempo, un asistente general (la FFN compartida) también trabaja en ella. Los resultados se combinan. Todo está optimizado para que la oficina funcione de forma autónoma, con poca energía y en un espacio reducido.
  Básicamente, Apple no está compitiendo ni pretende competir, al menos ahora, en la carrera de los parámetros de billones. Está redefiniendo la batalla de cómo llevar la potencia de un modelo avanzado (como un MoE) a un contexto de recursos estrictamente limitados en el dispositivo (lo que le permite además hacerlo compatible con su concepto de privacidad). Mientras DeepSeek usa la dispersidad para hacer posible lo gigantesco, Apple la usa para hacer posible lo invisible: integrar IA de alto nivel en el dispositivo, de forma fluida, privada y que no agote la batería.
  Las dos son respuestas muy interesantes y brillantes al mismo problema de la atención densa (y de cómo escalarla), pero parten de premisas completamente diferentes. La arquitectura PT-MoE de Apple es, posiblemente, una de las contribuciones más prácticas e importantes para el futuro de la IA on-device, y demuestra que a veces, la innovación no está en hacerlo más grande, sino en hacerlo inteligentemente más pequeño y eficiente. Lo puedes ver en el paper original de Google Research sobre Pathways, «Pathways: Asynchronous Distributed Dataflow for ML«, o en la documentación de Apple sobre MLX, el framework en el que se basan estas implementaciones, que además te dará bastantes pistas sobre su filosofía de diseño.
#003
Alqvimista - 2 octubre 2025 - 13:26
¡Jesús, ha escrito una respuesta más larga que el artículo original!
Lo leeré de nuevo en casa más despacio que aquí hay mucha información que asimilar.
Muchas gracias.
- Enrique Dans - 2 octubre 2025 - 13:30
  Ya te avisé… es que es un tema muy interesante, y que tengo muy mirado porque lo aplicamos (de otra manera más sencilla, pero similar en sus principios) en la plataforma agéntica de TuringDream!
#005
Benji - 2 octubre 2025 - 15:15
Geopolíticamente también es interesante por otros motivos nada relacionados con los razonamientos de la ML o IA.
Si China consigue modelos superiores por un costo menor y más hábiles y de mayor contexto sin necesitar ni un solo procesador, memoria o datos de occidente: ¿para qué narices van a invadir Taiwan?
Ya no la necesitarían para nada, puesto que superarían en todos los indicadores relevantes la capacidad de esta isla de proveer a occidente de juguetes tecnológicos para Intel/AMD/ARM/nVidia. Igual hasta consiguen arruinarla.
He leído que el precio de los waffers para 2nm subirá hasta un 50%. Vamos, que veremos iPhones a 2000€ y portátiles a 3000€ dentro de nada.
Llegará un punto donde lo mejor sea enemigo de lo bueno y nos quedemos atrás con esos altísimos precios mientras que los chinos evolucionan sobre una base de 5nm optimizando el software en vez de gastando más y más en hardware
- Javier - 2 octubre 2025 - 15:54
  Está «verde» todavía, pero está toda la industria detrás de eso:
  China’s First “In-House” Alternative To NVIDIA’s CUDA Emerges Online; The MUSA SDK From Moore Threads
  Yo me iría desprendiendo de a poco de las acciones de Nvidia que tuviera.
- Pit - 2 octubre 2025 - 16:14
  Efectivamente EE.UU. trata de proteger a Taiwan de una posible invasión de la RPC por la industria se semiconductores.
  Pero de ahí no cabe derivar que ese sea también el motivo por el que la RPC quiere recuperar Taiwan. Es mucho más sencillo: simple lógica nacionalista, es territoro chino y debe volver a casa, tengan fábricas de transistores o cultivos de caña de azucar.
  - Alqvimista - 2 octubre 2025 - 17:37
    Trump le está pidiendo a Taiwán que traslade a EEUU el 50% de la fabricación a cambio de protección directa y venta de armas.
    Pero, al paso que vamos, para China la fábrica taiwanesa será irrelevante.
    Creo Taiwán acabará como Hong Kong sin disparar un misil.
  - Enrique Dans - 2 octubre 2025 - 18:12
    De hecho, no debería ser difícil de entender para un español: para nosotros, Gibraltar es como un auténtico grano en el culo. Para los chinos, Taiwan es una cuestión de orgullo nacional y reunificación de su territorio. Si saco en clase un mapa de China sin Taiwan en él, mis alumnos chinos se ofenden y me lo hacen ver, de manera muy educada porque suelen ser muy educados, pero lo ven prácticamente como una ofensa. Y tal y como están las cosas, con un idiota al frente de su aliado y de las bases que supuestamente los protegen, no sería de extrañar que fuese la propia Taiwan la que acabase pidiendo la reunificación con China…
    - Alqvimista - 2 octubre 2025 - 20:06
      Sí, pero para nosotros Gibraltar sólo tiene valor político.
      Taiwán es mucho más que eso, tiene un esencial valor geoestratégico: es la única forma de tener salida directa al pacífico sin la limitaciones que le imponen la geografía japonesa y filipina. Y, además, con su posesión, da un gran paso en la posesión de facto del Mar de la China Meridional.
      Nosotros queremos Gibraltar, China necesita Taiwán.
      - Lua - 2 octubre 2025 - 21:30
        «El Tratado de Utrecht firmado en 1713 puso punto y final a la guerra en la que los ingleses habían incumplido lo prometido. Felipe V se comprometía a no aspirar al trono francés y a ceder perpetuamente a la Corona Británica el peñón de Gibraltar y la isla de Menorca, que fue recuperada posteriormente en 1802 por el tratado de Amiens.
        El peñón de Gibraltar había sido ocupado por una escuadra anglo-holandesa el año 1704 en nombre del Archiduque Carlos, pero en 1705 la reina Ana ordenó arrebatárselo para sí.
        A partir del tratado de Utrecht, Felipe V conseguía la próspera y rica Catalunya a cambio de donar la roca y la isla que ya ocupaban los británicos.»
        yo ahi lo dejo…. XDDD
        
        f3r - 3 octubre 2025 - 13:27
        El resumen en mi cabeza es(me lo leí hace tiempo…) : los borbones nos hicieron perder Gibraltar y abrir años de comercio sobre todo de esclavos (lo más lucrativo?) a américa, a cambio de asentar su inútil culo en nuestro reino. Poco se recuerda esto hoy en día cuando hablamos de república.
        Por otro lado, no sabemos si hubiera sido peor con los habsburgo…
        PD: todo fue mucho más complejo. La geopolítica, en cualquier momento de la historia, es complejísima (esto va para los voceros que abogan por la simplicidad en cosas como e.g. el conflicto de Ucrania)
      - f3r - 3 octubre 2025 - 13:13
        «es la única forma de tener salida directa al pacífico»
        what? debemos de estar mirando mapas diferentes…
        «para nosotros Gibraltar sólo tiene valor político.»
        Claro, claro, por eso los británicos están tan interesados en mantenerlo y nosotros en mantener nuestras colonias marroquís.
        
        Alqvimista - 3 octubre 2025 - 21:23
        «Claro, claro, por eso los británicos están tan interesados en mantenerlo y nosotros en mantener nuestras colonias marroquís.»
        Me estás dando la razón…
        Para los ingleses sí es importante, para España no tanto porque tenemos todo el sur de España y dominamos el estrecho.
        Para España, por la misma razón que Gibraltar para los ingleses, sí son importantes Ceuta y Melilla.
        «debemos de estar mirando mapas diferentes…»
        Si los chinos quisieran sacar subrepticiamente una flota al Pacifico, ¿por donde lo harían? Ahora sí o sí lo harían atravesando aguas de otros países. Filipinas al sur de Taiwán, Japón al norte (mira bien de quién son todo el rosario de islas que llegan hasta Taiwán).
        Taiwán sería la salida perfecta y directa al Pacífico.
- f3r - 3 octubre 2025 - 13:09
  «¿para qué narices van a invadir Taiwan?»
  1) no se puede invadir lo que es tuyo (de acuerdo a la ONU y la legalidad internacional)
  2) recientemente estoy viendo respuestas a esta pregunta: hay un montón de tecnologías militares de vanguardia que está desarrollando China que utilizan la estrategia de «enjambre», es decir comunicación y decisión operativa basada en IA que sincroniza múltiples unidades (submarinos, misiles, drones, drones, etc), resultando en algo mejor que la suma de las partes. Lo último que escuché es como un «portaaviones» aéreo.
  Creo que en este tema les llevan bastante ventaja a los yanquis, pero seguramente los chips más avanzados (más en el sentido de throughput, es decir, cantidad de cosas útiles por microsegundo) sean al final la piedra angular de cualquier batalla futura.
  Obviamente todo esto es muy handwavy, pero no soy experto militar.
#016
Buzzword - 2 octubre 2025 - 16:31
De la lectura del PDF podemos ver
* Hay ahorro técnico real con DSA (menos cómputo y memoria).
* La gráfica de costes está sesgada: mide $/M tokens en un escenario específico (H800 + tarifa elegida) y probablemente incorpora ya la rebaja comercial de API.
* La calidad no es idéntica: hay retroceso en razonamiento largo, que en la narrativa de marketing se diluye.
* El experimento depende fuertemente del hardware: sin H800 o NPUs locales optimizadas, las ganancias se reducen o desaparecen. Probable estrategia: usar H800 como escaparate internacional, pero en la práctica DeepSeek podría estar ya corriendo en hardware propio chino optimizado para sparse attention + FP8, de
ahí que se atrevan a ponerlo en producción mientras lo llaman “experimental”
Entrando en la comprensión de la técnica, lo que hay que dejar claro que DSA no tiene que ver MoE. El mecanismo DSA utiliza un Indexer y es una técnica distinta a la arquitectura Mixture of Experts (MoE), aunque ambas son técnicas avanzadas para hacer que los Modelos de Lenguaje Grandes (LLMs) sean más eficientes y escalables.
* Indexer: Escalar la ventana de contexto y reducir el coste de la auto-atención. * * MoE:Aumentar el número total de parámetros (capacidad) sin aumentar el coste de inferencia y entrenamiento.
El filtrado del indexer si se parece a algo es a un RAG pero con estas diferencias
RAG: La recuperación (retrieval) ocurre fuera del modelo (en una base de datos vectorial) y selecciona trozos de texto para alimentar al LLM.
DSA/Indexer: El filtrado ocurre dentro del modelo, como un paso de cálculo en la capa de atención, para seleccionar qué tokens (o «trozos de contexto») ya presentes en la memoria interna deben recibir la atención completa.
Diferencias Funcionales Clave Indexer/MOE
El DSA resuelve el problema del cuello de botella del contexto largo (costo O(T^2) de la auto-atención y el KV Cache). El MOE resuelve el cuello de botella del tamaño del modelo (el costo de activar todos los parámetros en todas las capas).
Mecanismo de Selección Un Indexer barato filtra los tokens relevantes de un contexto largo. Mientras que un Router o Gate selecciona los Expertos (sub-redes neuronales) más relevantes para un token)
La matriz de atención del Indexer (solo se calculan k relaciones de un total de L). En el MOE, solo se activan 2-4 expertos de cientos en la capa feed-forward).
Objetivo Principal Escalar la ventana de contexto y reducir el coste de la auto-atención. Aumentar el número total de parámetros (capacidad) sin aumentar el coste de inferencia y entrenamiento.
Analogía Simplificada
DSA (Indexer): Es como un bibliotecario que te da los 20 libros exactos que necesitas de los 100,000 que tiene en el almacén (gestión eficiente del contexto/memoria).
MoE: Es como un sistema de consultoría donde cada token es un cliente. El router envía al cliente al experto legal y al experto financiero (2 de 100 disponibles) para obtener el mejor consejo (gestión eficiente del cálculo/capacidad).
- Enrique Dans - 2 octubre 2025 - 17:26
  Madre de dios… vale, sí a casi todo (vamos a batir el récord de comentarios largos en esta página).
  A ver, llevar la discusión a este nivel de detalle técnico y de escepticismo comercial (habitual en ti) me parece interesante, sobre todo porque ni tú ni yo somos de o vendemos ni DeepSeek, ni Apple, ni Nvidia, ni Huawei, ni nada por el estilo, así que si separamos la narrativa de marketing de la ingeniería real nadie nos tira de las orejas. Vayamos por partes, dijo Jack el Destripador:
  Sí, DeepSeek Sparse Attention (DSA) y Mixture of Experts (MoE) son técnicas distintas que atacan problemas diferentes. DeepSeek podría estar utilizando ambas en su arquitectura, pero son mecanismos separados. Tu análisis en ese sentido me parece adecuado: DSA/Indexer es como una especie de «cirugía» en el mecanismo de atención, con el objetivo, como ya comentamos antes, de reducir la complejidad cuadrática (n²) del cálculo de atención en contextos largos. El indexer funciona como un filtro interno y barato que, para cada token, selecciona un subconjunto pequeño de tokens de entre los disponibles en el contexto, evitando calcular la atención sobre la secuencia completa. Es, como dices tú, una especie de RAG interno y ultra-eficiente, donde la base de datos es la propia memoria de contexto del modelo. Y MoE es, si quieres, «otra cirugía», pero en la capa feed-forward. Aquí el objetivo es aumentar la capacidad total del modelo (los parámetros) sin aumentar el coste de activación. El «router» envía cada token a un pequeño subconjunto de expertos (redes neuronales especializadas).
  La analogía del final está bien llevada: DSA sería un bibliotecario que gestiona eficientemente un almacén de memoria enorme, y MoE podría ser el sistema de consultores que gestiona de forma eficiente ese pool de talento especializado. DeepSeek-V2 puede usar los dos mecanismos simultáneamente, y seguramente lo esté haciendo: un token puede pasar por una capa de atención dispersa (DSA) para decidir a qué parte de su contexto prestar atención, y luego su representación resultante es enrutada a través de una capa MoE para que la procesen los expertos más relevantes.
  Sobre el ahorro real y la estrategia de hardware: el ahorro técnico será seguramente real, pero estará muy condicionado. La reducción en FLOPs y memoria con DSA me parece creíble. Peor como bien dices, explotar esta ventaja al máximo requerirá hardware optimizado para operaciones dispersas. En GPUs genéricas sin estas optimizaciones, la ganancia seguramente se diluirá.
  ¿La gráfica de costes es un artefacto sesgado de marketing, o un truco de preventas malintencionados? Seguramente. Esas métricas de $/token se calculan siempre en el escenario más favorable posible (H800, software optimizado, y probablemente incorporando ya un descuento agresivo para ganar cuota de mercado). Ni reflejan el coste real de inferencia para DeepSeek, ni mucho menos el coste que tendría para un tercero replicar la arquitectura en su propio hardware.
  Calidad: posiblemente no sea idéntica, y esto es lo más importante: entiendo que cualquier técnica de aproximación (dispersidad, cuantización) tiene necesariamente que conllevar algún trade-off. El posible «retroceso en razonamiento largo» sería la compensación por la eficiencia. El modelo se vuelve más barato, pero puede perder coherencia en argumentos extremadamente largos y complejos donde la atención densa y completa es crucial.
  Efectivamente es posible que la estrategia de hardware sea la clave. Es muy posible que DeepSeek esté ejecutando esto de forma óptima en clusters de hardware chino (¿en los Ascend de Huawei?) altamente optimizados para sus kernels dispersos y precisión FP8/INT8. El «experimental» en la API podría ser, en realidad, la puesta a punto de su infraestructura de inferencia para un tráfico masivo y global, usando las H800 como escaparate de rendimiento. Eso les permitiría mostrar una métrica de coste líder en el mercado, mientras van madurando su despliegue a gran escala.
  Diría, en la medida en que lo entiendo yo, que efectivamente la innovación de DeepSeek no es una sola, sino una combinación agresiva de varias técnicas de eficiencia (DSA, MoE, cuantización) que solo despliegan todo su potencial cuando se ejecutan en una pila de hardware y software muy integrada y muy optimizada para ese fin específico. Desde mi punto de vista, el mensaje para la industria estaría siendo que la siguiente batalla no es solo por la arquitectura del modelo, sino sobre todo por el modelo de inferencia que tiene detrás.
  Tengo una cena de apertura de curso con alumnos y una clase que preparar para mañana: como sigamos la discusión a este nivel, va a dormir Rita, y mi cardiólogo me dice que es importante dormir mis horas… :-P
  - Buzzword - 2 octubre 2025 - 19:07
    Escepticismo…
    Me hice esta pregunta… ¿No tendría que ir el coste de Deepseek R3.2 con el cuadrado al tener una complejidad O(T^2)?
    Cuando lo miras a fondo, ves lo que realmente están haciendo.
    - Enrique Dans - 2 octubre 2025 - 22:57
      Cierto, la complejidad teórica de la auto-atención sigue siendo O(T²), incluso con DSA. Lo que hace DeepSeek es un ingenioso cambio del coste de la GPU al coste de la CPU (o a un componente especializado). Si el coste computacional real para DeepSeek tuviera algún componente cuadrático, sería muy arriesgado ofrecer un precio plano por token. Sin embargo, su apuesta es que el coste del indexer (Paso 1) es insignificante comparado con el coste de la atención densa (Paso 2), y por tanto pueden absorberlo en su margen sin problema y presentar así una oferta plana más atractiva· El coste marginal de un token adicional, una vez indexado, es constante. Procesar cien tokens con atención sobre 64 claves cuesta «maomenolomismo» que procesar mil tokens con atención sobre 64 claves. La parte cuadrática (seleccionar las claves) es tan barata que la pueden considerar lineal para sus cálculos internos. Yo creo que están externalizando el coste cuadrático a una parte del sistema donde es manejable (CPU/componentes especializados), y luego cobrando basándose solo en la parte lineal y costosa (GPU) que queda.
      Me parece un movimiento francamente brillante.
      - Buzzword - 3 octubre 2025 - 10:03
        Si la verdad es que si han sido listos !!!
        ahora la opinión:
        Y lo curioso es que entré a mirarlo por el 3.2, no por el 3.3… y luego dices, si es la «misma» estrategia que el RAG, llevándolo a las «tripas» del modelo. Está claro que optimizar quitando precisión (fp8, atención selectiva (lo de llamarle sparse no me acaba de gustar, es como cuando dices a alguien, este está disperso…) , etc) trae una merma de calidad, pero al final es lo mismo que me pasa en casa cuando usaba SD1.5 en vez de SDXL, o los nuevos FLEX… Con el 1.5 me da la VRAM con los otros se tira el ordenador, la pera calculando. Aqui Deepseek, te dice me ahorro dinero (aunque lo exageren) pero le trasladan ese ahorro al cliente !
#021
Lua - 2 octubre 2025 - 20:32
Creo, que es de las pocas veces, que he disfrutado tanto de un artículo, como de sus comentarios (sobre todo del autor), como para decidir tener la boquita cerrada, y deleitarme…
Llevo ya un tiempo “retirado”, porque se me hacía todo “más de lo mismo”, monótono y monotemático…
ps.- (seguro que no hay una IA por medio?) XDDD
(es broma, ehhh?)
- jincho - 2 octubre 2025 - 22:31
  Me pasa lo mismo.
  Se agradece, y mucho, ese nivel de detalle técnico.
#023
Pedro - 3 octubre 2025 - 00:37
Buenas noches:
Aunque no me he enterado de muchas cosas, me ha impresionado este artículo y los extensos comentarios.
Gracias a ambos. Saludos.