Mi columna de esta semana en Invertia se titula «Sanidad e inteligencia artificial: el camino hacia una superinteligencia médica» (pdf), y es una reacción al reciente anuncio de Microsoft sobre el desarrollo de una superinteligencia médica capaz de diagnosticar a los pacientes con un nivel de acierto cuatro veces mayor que un grupo de médicos experimentados. Obviamente, lo último que pretendo es venderle la solución de Microsoft a nadie, no me dedico a eso, sino adentrarme en lo que ya escribí hace mucho tiempo sobre el futuro de la sanidad en la era de la inteligencia artificial.
Este tipo de cosas no son magia, ni responden al criterio habitual que aplicamos a los modelos masivos de lenguaje. Son, simplemente, el resultado de añadir información particular a un enorme repositorio de casos y diagnósticos, que permite llegar a diagnósticos muy delimitados y con un nivel de rigor muy elevado. Cualquiera que haya utilizado un modelo masivo de lenguaje para cuestiones relacionadas con la salud sabe que el nivel de precisión de la herramienta mejora a medida que le proporcionamos más y más información de contexto, en general en esos casos, cuanto más vamos incrementando la longitud del hilo con datos adicionales, resultados de pruebas diagnósticas, sintomatología, analíticas, etc.
En ee sentido, lo interesante es especular sobre un futuro en el que los sistemas de salud busquen no solo reducir el nivel de padecimiento de los pacientes, sino también reducir el coste total del tratamiento posibilitando un diagnóstico más temprano, utilizando los medios más adecuados para cada caso y, sobre todo, actuando con criterios de eficiencia y con acceso a toda la información relevante en cada momento.
Mi opinión es que, en ese sentido, es fundamental plantearse soluciones desde sistemas de salud razonablemente inclusivos, es decir, con criterios de universalidad, no solo por una cuestión evidente de justicia social, sino también porque eso permite un acceso a una cantidad de datos mayor que no segrega por criterios socioeconómicos. Evitar el desarrollo de una «sanidad para ricos» separada de la «sanidad para pobres» resulta obviamente importante, pero también lo resulta disponer de un flujo de datos constante y que permita alimentar un sistema que va mejorando a medida que los procesa.
En ese sentido, conviene reforzar la necesidad de contar con sistemas que permitan asegurar no solo la calidad del diagnóstico, sino también cuestiones fundamentales como la privacidad de los pacientes o la representación equitativa de todas las capas sociales. Ejemplos como el tremendo error del Reino Unido permitiendo que una de las compañías más siniestras del mundo, Palantir, tuviese acceso a los datos de salud de sus ciudadanos, marcan una línea clara a evitar: necesitamos solucionar muchos problemas de diseño, pero no a cualquier coste ni con cualquier actor.
A partir de ahí, las posibilidades de un país como España de poder aprovechar la inteligencia artificial para plantear un sistema de salud equitativo, universal, de buena calidad y con un coste razonable son muy interesantes, y conviene plantearlas como un reto capaz de mejorar la calidad de vida de los ciudadanos. Es simplemente cuestión de abordar adecuadamente los desafíos éticos y tecnológicos asociados, algo nada sencillo, pero tampoco imposible. Veremos si somos capaces de estar a la altura.
You can also read this article in English on my Medium page, «AI diagnosis is already here. Can Spain show us how to use it right?»
Los EHR (Electronic Health Records) son básicos para tener una base de datos masiva de historiales médicos con sintomas, diagnosticos, tratamientos y resultados.
Por obvio que parezca, estamos lejos de conseguirlo, aunque existen muchas iniciativas al respecto, siendo la más destacada la HL7 (Health Level 7). HL7 y propuestas similares que van surgiendo permiten estandarizar o traducir el historial médico de un paciente en un hospital A con su sistema informático particular a un hospital B, con su software incompatible, sin perder información relevante.
En Cataluña, por ejemplo, siendo la sanidad pública gestionada exclusivamente por la Generalitat, se partió inicialmente de una situación en la que cada hospital tenia su propio sistema informático y no eran interoperables entre ellos. Actualmente estan trabajando en un único sistema informático que abarque toda la sanidad catalana.
Pero mientras no se tengan miras más abiertas (la catalana será compatible con la vasca o la madrileña? y con la de otros paises de la UE?) estamos condenados a no poder aprovechar todo el potencial que nos brindaría una base de datos universal de Health Records para entrenar a superinteligencias sanitarias.
Obviamente existen barreras idiomáticas y legislativas que deberían ser tratadas. En el caso de las barreras idomáticas, también existen estándares para dar códigos eventualmente a cada sintoma, cada diagnóstico y cada tratamiento para que no supongan un problema.
Supongo que lo que falta es una voluntad férrea de hacer realidad un software universal de gestión de HR que, obviamente, debe cumplir con todos los estándares de privacidad, seguridad y precisión necesarios para poder entrenar a un LLM multimodal exclusivamente para la salud pública.
Muy interesante la información que aportas. Sería importante que nos facilitaras algunas fuentes para conocer mejor esta información y poder seguirla.
Aquí dejo una **crítica formal** redactada con un tono riguroso y ético, destacando una charla que he tenido con Gepeto al respecto a partir del PDF del arxiv 2506.22405v1.pdf
De primeras nada más leer el refrito de WIRED me ha parecido el típico anuncio oportunista, después de ver en que se basa el MAI-DxO, ( me ha recordado al Señor Lobo de Pulp Fiction) un sistema orquestador inspirado en cómo trabajan los equipos médicos, que simula un panel virtual de cinco «médicos» con roles específicos:
Dr. Hypothesis: mantiene diagnósticos diferenciales probables.
Dr. Test-Chooser: selecciona pruebas óptimas para discriminar entre diagnósticos.
Dr. Challenger: busca evidencia que pueda refutar hipótesis actuales.
Dr. Stewardship: controla costos y evita pruebas innecesarias.
Dr. Checklist: asegura consistencia y calidad en las solicitudes.
—
– En fin os dejo con el resumen que ha hecho GEPETO de como los humanos distorsionan la realidad para vender motos o a su madre..
## Crítica Formal al Experimento «Sequential Diagnosis with Language Models»
El trabajo presentado en *Sequential Diagnosis with Language Models* introduce el benchmark **SDBench** y propone el sistema **MAI-DxO**, con resultados que, a primera vista, sugieren un avance significativo en la capacidad de los modelos de lenguaje para realizar diagnósticos médicos complejos. Sin embargo, un análisis cuidadoso revela importantes limitaciones metodológicas, sesgos en el diseño experimental, y una presentación de resultados que podría calificarse como excesivamente triunfalista, con riesgo de inducir a interpretaciones erróneas tanto en la comunidad médica como en el público general.
### 1. Sesgo de selección de casos
El experimento se basa exclusivamente en **casos clínicos CPC del NEJM**, los cuales son seleccionados deliberadamente por su complejidad, rareza o valor educativo. Este enfoque introduce un sesgo grave:
* No refleja la distribución real de enfermedades en la práctica clínica diaria, donde predominan enfermedades comunes y pacientes sanos.
* Al centrarse únicamente en casos con diagnóstico final confirmado, el experimento elimina de facto la incertidumbre inherente a muchos escenarios clínicos reales.
Este sesgo de selección limita severamente la aplicabilidad de los resultados y genera un entorno artificialmente favorable para los modelos de lenguaje, que están diseñados para buscar correlaciones dentro de un espacio cerrado de información, con la garantía implícita de que siempre existe un «diagnóstico correcto» que descubrir.
### 2. Evaluación poco representativa del diagnóstico «correcto»
El criterio de éxito en el estudio está basado en un **modelo evaluador («Judge agent»)** que compara las respuestas de los participantes contra un diagnóstico considerado «verdadero» según el caso original del NEJM. Esto introduce varios problemas:
* En la práctica clínica, muchos diagnósticos son probabilísticos y se aceptan diagnósticos diferenciales razonables cuando la información es limitada.
* No queda claro hasta qué punto el modelo evaluador comprende las sutilezas del razonamiento clínico humano, especialmente cuando diagnósticos parcialmente correctos pueden llevar a manejos adecuados.
El hecho de que los médicos humanos hayan alcanzado sólo un **20% de precisión según esta métrica** es sorprendente y levanta serias dudas sobre si el umbral de «diagnóstico correcto» fue definido de manera justa o si, por el contrario, se ha diseñado un sistema que penaliza injustamente las aproximaciones humanas al diagnóstico.
### 3. Presentación de resultados potencialmente engañosa
La afirmación del paper de que **»MAI-DxO superó a los médicos humanos, alcanzando una precisión del 80% frente al 20% de los médicos»** puede ser considerada **clickbait y éticamente cuestionable.**
* Este tipo de titulares puede inducir al público no experto a asumir, de forma acrítica, que los modelos de lenguaje son superiores a los médicos humanos en diagnóstico clínico, sin comprender las condiciones artificiales del experimento.
* Tal afirmación ignora que los médicos en el estudio **fueron limitados en su acceso a recursos**, no pudieron consultar colegas, guías clínicas, ni bases de datos —prácticas habituales y esenciales en el trabajo clínico real.
* Además, no se menciona adecuadamente que los casos estudiados representan sólo un subconjunto muy específico y difícil de la medicina, no la totalidad de la práctica clínica.
Este tipo de comunicación puede tener consecuencias negativas, como alimentar expectativas infundadas sobre el rol actual de la inteligencia artificial en medicina, erosionar la confianza en los profesionales de la salud y promover narrativas que favorecen la adopción tecnológica sin el debido rigor.
### 4. Costos y simplificaciones poco realistas
Aunque el paper introduce un análisis de costos, éste está basado en precios estimados en Estados Unidos y no contempla otros factores clave como:
* Disponibilidad local de pruebas.
* Tiempos de espera y accesibilidad.
* Riesgos, incomodidad, o impacto emocional para el paciente.
* Pruebas redundantes o innecesarias desde el punto de vista clínico.
El enfoque de «minimizar costos» basado únicamente en precios monetarios no refleja las verdaderas complejidades de la toma de decisiones clínicas responsables.
### 5. Sobreajuste al benchmark
El sistema MAI-DxO parece estar **altamente optimizado para el benchmark específico** diseñado por los propios autores. Esto limita su valor predictivo sobre cómo se comportaría el sistema en escenarios clínicos abiertos y no controlados. Es probable que parte del rendimiento destacado del sistema se deba a la adaptación al formato secuencial de SDBench, lo cual no garantiza transferibilidad a situaciones reales con pacientes.
—
## Conclusión
Aunque la propuesta de un benchmark secuencial es una contribución interesante, la **forma en que los resultados se presentan y comunican bordea lo sensacionalista y carece del contexto crítico necesario para evitar malas interpretaciones.** La afirmación de que los modelos superan ampliamente a los médicos humanos en diagnóstico debe entenderse con extrema cautela, ya que:
* Se basa en condiciones altamente controladas y poco representativas.
* Puede inducir al público general y a responsables políticos a conclusiones prematuras sobre la aplicabilidad clínica de estos sistemas.
Este trabajo debería ser interpretado como **una exploración técnica preliminar**, no como evidencia definitiva de superioridad clínica de la inteligencia artificial frente a los médicos. Presentarlo como tal es no sólo impreciso, sino potencialmente irresponsable.
PS: También las IAs sirven para detectar vendedores de crecepelo…
Gepeto termina con esto:
«Si quieres, puedo ayudarte para enviar una crítica como carta a los autores, como comentario para un journal club, o incluso para una revisión formal.
¿Quieres que te ayude a estructurar alguna de estas opciones?»
En fin, los grandes intentando vender su moto en la Sanidad, GRAN MERCADO !!!!
Magnífico, felicidades, has destrozado su informe sobre aplicación de la IA al diagnóstico clínico utilizando una IA.
Lo peor es que utilizarán esa herramienta para rechazar la atención de todavía más casos pero se excusarán en que lo ha dicho la IA.
Me ha recordado a cómo un argentino destrozó con un comentario todo el trabajo y millones de US$ invertidos por Adidas en unas nuevas zapatillas:
https://x.com/Agustin_Ocampo/status/1032314399908945920
Si es lo que tiene los clickbaits que se destrozan con un poquito de no ignorancia.
Me cachis ya no podrán cobrar comisión en Quirón… y ya sabes ten cuidado por donde andas, no vayas a pisar una IA nueva…
Es evidente que ese es el futuro. Todos hemos sido auscultados por un médico alguna vez con el fonendoscopio. Imaginemos que es vez de este tradicional aparato simplemente se nos acerca un micrófono qu capaz de comparar nuestro sonido con una biblioteca con todos los sonidos típicos de síntomas de enfermedades ¿No creemos que este sistema pondrá de manifiesto síntomas en mayor cantidad y exactitud que el médico mas experto?.
Vamos un a paso mas allá, Para confirmar la posible enfermedad el médico emitirá recetas de pruebas adicionales, (Radiofrafías,análisis de sangre, TAC,…) ¿No parece razonable que estas ordenes se generen automáticamente en función de los síntomas descubiertos?. El medico encontrará utilísimo algo asi que le permite reducir su trabajo y el tiempo de las consultas.
Pero los análisis que hagamos a continuación, (Radiofrafías,análisis de sangre, TAC,…), tendrán sistemas similares. ¿No cambia profundamente estos procesos el tratamiento de los enfermos,? En este tipo de medicina ¿No se devalúa la experiencia y el «ojo clínico» del médico?
_
Yo me acuerdo bien del cabrón del androide de Hyperdyne Systems que iba con nosotros en la nave Nostromo, un hacha el tío, ni mil médicos high-tech lo superaban, sólo que tenía los intereses que tenía el joputa, y así nos fue: Ni uno de nosotros quedó vivo a excepción de la famosa compañera…
Obviamente, el problema NO es la IA (que también, of course), el problema es la concepción que se tenga de la medicina por parte de los que «le mueven los hilos por detrás» a la IA.
Sirva este recordatorio para el campo, cada vez más y más extendido de la medicina-psiquiátrica, de alguien que no es ningún mindundi:
https://elp.org.es/sobre_la_medicina_basada_en_la_evidencia/
«capaz de diagnosticar a los pacientes con un nivel de acierto cuatro veces mayor que un grupo de médicos experimentados» (EDans).
Quiero suponer que donde pone experimentados vale poner profesionales, entendiendo que ser profesional es algo más que ser un técnico experimentado.. es alguien centrado en su trabajo, con intensidad racional y emocional, por encima de la media… (mediocres fuera…aunque tengan Premio Nobel!!!).
Da igual que sea un médico experimentado del Monte Sinaí (NYC), porque si le falta cierto toque de profesional, por ejemplo : tener el sesgo (tan frecuente) de atender mejor a los ricos que a los pobres (total morirán igual!!!), ya no me vale como competidor de la superIMA.
Porque eso es precisamente el problema de la llamada IA… que haya sido programada sin sesgo alguno (cosa imposible dado que el programador es humano)… y, sobre todo, que haya tenido una interacción durante muy largo tiempo con todo tipo de pacientes (algo más que improbable, dada su carestía).
Volvemos a lo mismo. Si una Facultad de Medicina hace que los cerebros (IH) que allí entran, no salgan solo mejores, si no con ciertos sesgos propios de la «profesión» médica… entonces «apaga y vámonos».
Y es que me gustaría pode ver por un agujerito la IH de los médicos experimentados… los que lógicamente tienen fama de «experimentados» (y échate a dormir). No olvidemos que hay carniceros altamente experimentados.
«razonablemente inclusivos» (EDans).
No quisiera ser quisquilloso (o sí), pero me gustaría romper una lanza contra ese uso tan pavero y universitario (como de tuna) actual, del concepto inclusión en vez de integración.
No me meto en las mate (derivar e integrar), pero resulta curioso que en tecnología, donde tanto se usa el término integración (circuitos, por ejemplo), también tenga que sufrir esa invasión del término incluir… Cuando quiere decir «estar dentro (nada más!!!) , de un conjunto por ejemeplo, mientras que integrar es estar dentro y además formar parte del sistema que te ha incluido.
En fin, cada uno… que se integre dónde quiera.
Podíamos plantearnos hace años la medicina telefónica? O por videoconferencia?
Seguramente muchos, no, pero una gran parte de la medicina se basa en escuchar síntomas (quizás esto es lo más difícil porque puede llevar a error), hacer unas pruebas básicas rápidas y solicitar una pruebas más profundas, para llegar a un diagnostico más preciso. Entre medias, medicamentos de amplio espectro y a esperar.
Estoy convencido que gran porcentaje de los pacientes puede ser tratado por una IA e incluso ser derivados inmediatamente a un humano si hay dudas pero desde luego el triaje sería mucho más ágil.
No olvidemos que los humanos, se cansan, a veces se equivocan, aveces tienen poca experiencia, etc, por no hablar de lugares donde no hay doctor ( libro recomendado) y otra veces los tiempo de espera para una cita presencial son acto de fe.
Todo normal y en línea además con lo que pienso. Pero, «capaz de diagnosticar a los pacientes con un nivel de acierto cuatro veces mayor que un grupo de médicos experimentados» lleva a un diagnóstico de especialistas con un acierto por debajo del 25 %, lo que considero que es un error, y que la referencia es a ‘un nivel de fallos cuatro veces menor que…’
Como ya he dicho otras veces, es aquí donde yo quiero IA ya. Ahora bien, como indica Enrique hay una serie de retos que, honestamente, no me atrevo a poner prioridades pues unos pueden actuar de facilitadores de otros, así que simplemente trataré de enumerar los que yo considero importantes:
1.- Voluntad política de tener un único sistema nacional de información sobre la salud
2.- Solucionar el problema de la seguridad y propiedad de los datos público-privados del conjunto y cada persona
3.- Desarrollo del modelo sobre la base de lo que yo he entendido se pretende: ser una ayuda a la detección temprana de enfermedades. Se pretende que funcione como un equipo multidisciplinar que complemente el diagnóstico del facultativo. Con la falta de médicos que tenemos hoy en día, me parece algo esencial
4.- Integración con otro modelo de gestión de citas y pruebas medicas que agilice el sistema. Es fundamental pues ahí tenemos otro cuello de botella. Yo centraría el tiro en agilizar e incrementar la calidad, y en breve eso generará reducciones de costes que se podrán invertir en más medios
5.- Aceptación por parte de las personas que esto no es malo, que esto no es para hacer ricos a unos cuantos, ni un anillo para dominarlos a todos. Cuando estás dentro de cualquier máquina en una prueba, no te paras a pensar la cantidad de dinero que genera en I+D, fabricación, licitaciones, venta, mantenimiento,…. Simplemente quieres que funcione. Punto. ¿Por qué a los usos de la IA no hacemos más que buscarle 3 pies al gato? No hablo de cheque en blanco, hablo de duda razonada
Ya dejamos para otro día, y quizás otra entrada de Enrique, el uso de IA en la reducción de los tiempos de desarrollo de tratamientos con nuevos fármacos, así como en la investigación genética de nuevos. Algo que verdaderamente revolucionará la medicina universal en varios órdenes de magnitud.
Yo creo que la solución es posible con una correcta anonimización (perdón por el palabro) de los datos.
Obviamente esos datos no pueden anonimizarse completamente, ya que el lugar de residencia, edad, actividad laboral o hábitos como el fumar o beber, son necesarios para alimentar bien el LLM, y siniestros tiparracos como plantir podrían atar cabos e identificar….
Por lo que esa ley de compartir datos anonimizados obligatoriamente para hacer LLM médicos universales, debería de ir acompañada con leyes de castigo penal a quien haga un uso perverso de esos datos para «desanonimizar»