Herramientas de generación de vídeo… y sentido común

IMAGE: Brad Smith (Microsoft's President)

Esta entrada del presidente de Microsoft, Brad Smith, en uno de sus blogs corporativos, «Combating abusive AI-generated content: a comprehensive approach«, me ha parecido que está llena de sentido común, y que toca además los temas que debe tocar, pero tomando las precauciones adecuadas.

La reciente progresión de las herramientas algorítmicas de generación de vídeo como Sora, la última iteración de OpenAI es, a todas luces, impresionante. Sin estar aún disponible para los usuarios, la red se ha llenado rápidamente de ejemplos de increíbles vídeos que lo ilustran, y que la compañía afirma haber publicado sin ningún tipo de modificación, tal y como salieron del algoritmo. Algo que es a la vez impresionante, por lo que tiene de brillante desarrollo tecnológico; y también terrorífico, por las posibilidades que ofrece para la generación de todo tipo de deepfakes con usos de cualquier tipo, desde el revenge porn hasta la política o las fake news.

Obviamente, a partir del momento en que este tipo de herramientas pueden ser desarrolladas, no hacerlo por temor a un posible mal uso sería absurdo, y solo conseguiría que estuviesen disponibles solo para unos pocos. Pero si hay algo evidente en este momento es que, como dice el propio Smith en su artículo, «necesitamos que las personas entiendan que no pueden creerse cada video que ven o cada audio que escuchan». Obviamente, esto es más fácil decirlo que conseguirlo, y requiere de algunos compromisos de tipo tecnológico, regulatorio y educativo.

Desde el punto de vista tecnológico, las compañías que desarrollan este tipo de herramientas tienen que adquirir compromisos claros e inequívocos para tener arquitecturas robustas capaces de prevenir y detectar el abuso, de llevar a cabo prácticas de red teaming constantes, bloqueo de prompts considerados abusivos y expulsión de usuarios que hagan un mal uso de sus herramientas.

Además, tienen que facilitar el reconocimiento de los contenidos que generan, incorporando formas de marcarlo mediante metadatos, fingerprinting y marcas de agua que informen de su procedencia y su historial de modificaciones, de forma que esas marcas no puedan ser fácilmente eliminadas o modificadas.

Detectar y evitar rápidamente usos abusivos, como ocurrió hace un par de semanas con el caso de Taylor Swift, como ocurre con las estafas que simulan la voz de un familiar o un compañero de trabajo, o como en los casos de revenge porn. El equilibrio entre libertad de expresión y usos claramente fraudulentos o directamente censurables tiene que estar claro, y esos contenidos tienen que poder ser identificados y eliminados por la vía rápida.

La colaboración entre compañías de la industria, y con gobiernos, reguladores y la sociedad civil en general es fundamental, como lo es el desarrollo de una legislación adecuada que proteja a los ciudadanos del mal uso de estas herramientas, con el fin de que podamos proteger a las personas al tiempo que se respetan cuestiones como la protección de la libre expresión y de la privacidad personal.

Por último, pero por supuesto, no menos importante, la parte que me toca directamente: la educación. Es preciso que la sociedad en su conjunto sea consciente de la existencia de este tipo de herramientas, de la necesidad de ejercitar el tan maltratado pensamiento crítico en todo momento, en el uso de la responsabilidad a la hora de compartir contenidos, y en las consecuencias de vivir en un mundo en el que los criterios que llevamos toda la vida considerando adecuados y suficientes, simplemente, han dejado de serlo.

Me ha parecido un buen artículo, una buena enumeración de medidas, y una buena demostración de sentido común. Que desgraciadamente, en nuestra sociedad, tiende en muchos casos a ser el menos común de los sentidos.


This article is also available in English on my Medium page, «How to take a common-sense approach to video creation tools«

26 comentarios

  • #001
    c3po - 18 febrero 2024 - 14:56

    La censura previa tiene un nombre:totalitarismo».

    Microsoft qiere ser el abusón que es el dueño del balón y decidir quien puede jugar y quien no.

    A ver señor enterado del blog corporativo, tu decides quien juega con tu jueguete, ¿es eso? Pues dinos algo que no sepamos, tu herramienta va a ser utilizada de acuerdo a tus condiciones, para hacer películas de bajo coste sin actores, sin efectos especiales, y si me apuras sin guionistas,

    ¿no es eso más pornográfico que las campañas de marketing de alguien para vender discos?…

    Desde un tío con nombre francés expuso que el legislativo hace las leyes, el ejecutivo gobierna el pesebre, y los jueces controlan a los abusones.

    Y tu sr. Corporación Internacional, ¿quien te ha dado vela en este entierro? Ahh… que el juguete es tuyo.

    En cuanto a lo de Sora, no es impresionante, es puro cherry picking, de lo que dice que van a hacer. ¿Nos lo creemos? ERROR: Esa no es la pregunta !!

    No señores, esto no va de creer en el milagro de Fátima o el de P.Tinto, va de una IA que nos cuentan que hace unos videos impresionantes ¿detalles técnicos? NI UNO.

    Estamos en la misma gilipollez que con ChatGPT4, o de Gemini: PRO-PA-GAN-DA

    Resumiendo, ni compro la ética de MS, ni el circo de las presentaciones. Está claro que estamos donde estamos, y tenemos a nuestro alcance, unos videos impresionantes, pero ni MS es el Papa de Roma evangelizando, y OpenAI ha cumplido aduras penas parte de lo que decía de GPT4 en la otra presentación.

    ¿Nos están vendiendo una burra? Evidentemente si, pero muy bonita y bien hecha. Felicidades al Dto. de marketing de Sam.

    Corolario a MS: Mensajes de ética vendo, que para mi no tengo

  • #002
    Juan T. - 18 febrero 2024 - 15:44

    Sinceramente, aunque esta muy bien redactado se me queda muy corto el articulo vista la enorme potencialidad de la noticia en todos los sectores imaginables….¿que hay de la industria del cine , por ejemplo? ¿que hay de su contribución a la llegada mucho mas rápida de la AGI? Etc, etc.

    Lo del tema deepfake es solo una cara del inmenso poliedro.

    • Lua - 18 febrero 2024 - 16:02

      «…Pero la noticia más trascendental de esta semana es esta. Que la inteligencia artificial pueda generar vídeo realista solo dando instrucciones de texto. Habrá un día no muy lejano en que usted irá al cine, si quedan, o pondrá una plataforma de streaming, y verá una película generada única y exclusivamente con inteligencia artificial. Sin actores, cámaras, decorados, focos, micros, ni nada. Habrá un día en que no será necesario adaptar ninguna novela al cine. Solo será necesario que la inteligencia artificial cree su versión audiovisual.

      De hecho, habrá un día en que usted dejará de dar vueltas por el menú del Netflix de turno. Simplemente, dirá: «quiero una película que explique tal y tal y acabe de esa manera», y será el guionista de su propia peli. Habrá un día en el que los puestos de trabajo de esta industria se perderán como lágrimas en la lluvia. Y esto es solo la parte de la industria. Porque los apocalípticos le hablarán del final de la realidad y de un campo abonado a la mentira. Y no les va a faltar razón, seguramente….»

      — Extracto de un articulo de Tian Riba en El Nacional

      • c3po - 18 febrero 2024 - 16:19

        Realmente como espectador el problema que tengo, no es si Pepe Sacristán o Scarlett trabajan en una peli, normalmente es la falta de ideas creativas, innovadoras no en el sentido empresarial, sino de contenidos, y estas tools en manos de un millón de chavales haciendo «sus pinitos» en cine puede ser un torrente orgásmico de obras que hasta ahora no nos habiamos planteado

        Este comentario anterior lo hubiera dicho mi yo «joven»

        Mi yo actual, contestaría algo asi, cuando viví la llegada de las emisiones privadas de TV en España, esperábamos mil progrmas nuevos llenos de creatividad y nueva tele, al final esa tele privada fueron:

        * AR trabajando pro PP
        * La Sexta, haciendo el travesti, y trabajando para el PP
        * El Hormiguero trabajando para el PP
        * Sálvame(DEP) con Belen Esteban
        * Los informativos dando la guerra de Ucrania y lo de Israel , solamente desde el lado OTAN y de Israel
        * La única que se salva es Telemadrid que apoya a la oposición del PP actual, es decir Ayuso

        Asi que ya sabemos de que se llenarán las nuevas pelis

        * Pro MS
        * Pro OpenAI
        * Pro los que pongan pasta para salir
        * pro Apple
        * pro Tesla
        * etc etc

        Habrá que ver «La Resistencia» que hpuede hacer…

        PS: Siempre nos quedaran los libros

        • JM - 18 febrero 2024 - 16:43

          Muy cierto.

          El problema va a ser la falta de ideas que puede provocar que todos los contenidos sean malos refritos de otros.

          Al fin y al cabo la IA va a sustituir los malos puestos de trabajo: asesores que no asesoran, CAUs que no ayudan, atención al cliente que se dedica a no atender al cliente… Todo eso lo hace muy bien la IA.

          Usarla en los puestos críticos puede terminar en desastre o descrédito como el caso de Air Canadá: https://arstechnica.com/tech-policy/2024/02/air-canada-must-honor-refund-policy-invented-by-airlines-chatbot/

  • #006
    Lua - 18 febrero 2024 - 17:10

    Como yo lo veo, y asi lo he dicho en diversas ocasiones…. nos vamos a hacer daño.

    Estamos poniendo metralletas en manos de monos.

    La culpa no es de la herramienta (o no del todo) sino de los «monos» que las emplean (en este caso, empresas).

    • Lua - 18 febrero 2024 - 17:13

      Ups… era respuesta para C3PO y JM

    • c3po - 18 febrero 2024 - 17:22

      WARNING: Comentario real y por tanto de nivel !!! ( no os quedeis con la anécdota ir a la posdata)

      Lo de los monos me ha gustado.

      Recuerdo de pequeño ir al Retiro a ver el Zoo ( si tengo +18años) y ver a los chimpances tocándose «la minga» el público descojonado y agobiado (50% padres y 50% madres) y cuando menos te lo esperabas empezaban a lanzar sus «deposiciones» al público

      Al final los monos eran como los youtubers daban lo que su público pedía aunque fuera de manera indirecta con sus reacciones

      Todo sin IA, a ver si la IA va a tomar el papel de los monos y su onanismo !!!

      ¿ A que en Barna los monos también se la pel… ?

      PS: Yo con 7 años diciendo que guarros los monos tirando sus cacas… con el de MS los niños no verán la realidad…porque ¡ no será apropiado!

      • Lua - 18 febrero 2024 - 17:38

        Tambien… tambien… XDDD

        evolucion

        Para retomar un poco la seriedad…

        No estamos lejos del momento en que leer o mejor, ver una noticia, deje de tener sentido… Si ya hoy, los que se hacen llamar «equipos de verificadores» fallan como escopetas de feria…

        Tambien digo, que en estos dos dias, ademas de los videos «oficiales» de Sora, he visto mucho video sacado de videojuegos o peliculas amateur haciendolos pasar por IA. Y por las mismas, ya te comente el famoso (este si, por Sora) donde tres cachorros tienen 90 patitas… creo que lo de manos y piernas sigue siendo un algo sin resolver…

        A ver si lo encuentro…

        • c3po - 18 febrero 2024 - 18:19

          El de los perritos, lo he visto !!

          Y el de la japonesa se le cruzan las piernas, que ni Lina Morgan

          Yo hasta que no sea público y se pueda probar pues lo mantengo en el limbo. Y luego si es pagando é lo mandaré al purgatorio !

          Y en serio, Sora evolucionado es un boom para el cine poder crear a voluntad escenas con indicaciones, es una revolución, que a muchos profesionales se les debe haber puesto de corbata.

          Si es TVE con «el ministerio del tiempo», o A3 con «la casa de papel» y muy pocos medios, hicieron series muy dignas, ahora con un coste infinitamente menor pueden ser algo como no se ha visto nunca. Dejando que el guión lo haga gente con idea del espectáculo y cuatro monos (valga la expresión) podrían hacer unas series alucinantes. pero al final se pondrán a pegar tiros, hacer cuatro robots, monstruos y el todo vale para el espectador imbécil

          El «Yo te saludo María» de Godard no hacía falta «casi nada de medios» y poco cine de autor nos llega a la TV, así que ya sabemos lo que nos va a llegar…

          El que haya fallos en una tecnología de IA (manos, patas) ahora en modo pre-estreno lo veo hasta normal

  • #011
    Gorki - 18 febrero 2024 - 17:58

    De siempre me ha sorprendido la credibilidad que damos a las fotografías y a los videos. En el mejor de los casos, es solo el punto de vista de un señor que maneja una cámara. Generalmente las fotografías y los videos son maniqueos, pues lo que nos muestran es lo que el fotógrafo quiere que veamos, ocultando todo lo demás.

    Curiosamente, si un periodista firma una noticia, juzgamos quien es el periodista, y que medio la emite, pero bajamos la guardia, si no se nos muestra como certificado de autenticidad, una foto o un video, Cuando además de ser el punto de vista de un señor, puede ser modificado y cambiado en el laboratorio de mil formas.

    El problema con programas como Sora, es que, (en el futuro), cualquiera va a poder inventarse cualquier cosa. Exactamente lo mismo que pasa con la máquina de escribir, cualquiera puede escribir cualquier cosa. Pero en un caso mantenemos un cierto sentido crítico, mientras que, (de momento) carecemos de él con las imágenes «realistas».

    Creo que lo bueno de que abunden las imágenes y ahora los videos, hechos con AI, es que nos van acostumbrando poco a poco, a despertar nuestro sentido crítico, y que valoremos el mensaje gráfico, teniendo en cuenta quien lo emite y por qué lo emite.

    • c3po - 18 febrero 2024 - 18:29

      Gorki

      «El problema con programas como Sora, es que, (en el futuro), cualquiera va a poder inventarse cualquier cosa.»

      Eso ya pasa hoy en día, el cine es ilusión, crea imágenes, truca, efectos especiales, para que parezca real que estás en 1492, o en un tren a Auschwitz, o en medio de Siberia.

      Ahora lo que debería venir es que realmente cualquier PYME pudiera hacer esa película o serie, con costes ridículos.

      Y lo que tiene mucho valor es el guionista, el documentalista que alimenta a la IA con las imágenes de referencia adecuadas, el director/montador que elige las escenas adecuadas, el actor protagonista del que toman «el master» para hacer creible la interpretación.

      La revolución es similar a hacer «el pueblo comanche» con maquetas o con 3D,….

      Ahora la IA podra generar fondos, efectos, decorados, extras, dobles,…

      Tienes razón, es la máquina de escribir llevada a la imagen

      • Gorki - 18 febrero 2024 - 20:02

        Creo que la generación de videos, casi sin coste, y sin especiales conocimientos, puede ser para la industria del cine., lo que ha venido a ser la autopublicación a la industria editorial.

        Por un lado una bendición por que si eres, un investigador del sanscrito o un poeta, puedes mandar imprimir tu libro sin problemas. La parte mala, es que roto el filtro del editor, el mercado se inunda de «poemarios» infames y puede que sea mas difícil aun que que antes descubrir un autentico poeta.

        Igual pasa en cine, Si eres genial, pero te rechazan las productoras de cine, podrás hacer tu video, pero lo probable es que se pierda entre miles de «videos TikTok»,

        Pero creo que en este caso, lo que preocupa a Dans, son las «fakenews» y otros «productos» destinados a engañar y timar a la gente, que indudablemente aparecerán, pero opino que en poco tiempo aprenderemos, a separar el grano de la paja, y será tan raro que te engañen con un video, como lo es hoy que te engañen con una carta.

        Vuelvo a lo de siempre, perseguir y llevar a los tribunales a quien utilice esta herramienta para el engaño, pero no prohibais la herramienta, porque por un lado será inútil, el defraudador la conseguirá, pue ya existe y en cambio todos los normales y cumplidores con la ley nos veremos privados de ella.

        • JM - 19 febrero 2024 - 20:06

          Opino lo mismo.

          Poco a poco la gente se adaptará a no creerse algo sin un buen motivo.

          ¿Significará eso que se le dará mayor valor a la educación? Me gustaría creerlo, pero es más probable que acabemos con una gran mayoría «crédula» y una minoría que te ha realmente conocimiento.

  • #015
    Aleix - 18 febrero 2024 - 19:04

    El artículo está bien, pero lo que la gente parece no entender es que el código para generar imagenes con inteligencia artificial es libre y avanza a un ritmo impresionante gracias a una comunidad dedicada a ello. Te recomiendo que mires estos dos repositorios, especialmente el de ComfyUI, que básicamente desarrollan y ponen al alcance de todos la base de todo que es Stable Diffusion. ComfyUI es un sistema modular donde cualqiera con pc con una targeta gráfica puede producir imagenes profesionales con IA. En breve incorporará los avances que se produzcan con el tema del video.

    https://github.com/lllyasviel/Fooocus

    https://github.com/comfyanonymous/ComfyUI

    ¿regulaciones? ¿watermarks? Wishful thinking. Suerte con ello.

    • c3po - 18 febrero 2024 - 19:21

      Exacto. Y si no fuera por los precios de la VRAM estariamos haciendo maravillas… por cierto ComfyUI es un lío del carajo, hasta que te haces con los wokflows,… si el paso de 1.5 a XL te frie el ordenador, ya con video… habrá que esperar a que bajen las GPUs

      • Aleix - 18 febrero 2024 - 20:45

        Si, el sistema de workflows intimida al principio, pero cuando le pillas el truco es de lo más práctico. Permite integrar checkpoints, loras y todo tipo de módulos creados por otros usuarios de manera super sencilla. Puedes hacer de todo.

        Yo con un i5, 16GB RAM y una tarjeta nvidia de 8GB voy bien para hacer y modificar imágenes.

        Para vídeo veremos cuando salgan los módulos. Es cuestión de días o semanas. Yo creo que no tendremos problema con equipos domésticos de gama alta como el que yo utilizo.

  • #018
    Matt - 18 febrero 2024 - 21:06

    Lo de no poder creerse nada de lo que veamos o escuchemos es tan nefasto como creerselo todo.
    Y lo de «no se puede prohibir algo que está inventando» me parece una gilipollez. Las tecnologías tan potencialmente peligrosas para la sociedad si deben ser prohibidas. El «estaban tan preocupados por si podía hacerse que no se plantearon si debía hacerse» ya está aquí.

    Ya veras lo que van a disfrutar esos trumps del mundo que tanto odia Enrique y sus propagandistas cuando puedan inventar cualquier cosa con videos y audios que lo «demuestren» de cualquiera que les moleste.

    • Gorki - 18 febrero 2024 - 22:33

      ¿De veras te crees que prohibir la inteligencia artificial valdría para algo?

  • #020
    Guillermo - 19 febrero 2024 - 08:06

    Independientemente de si lo que vemos es solo marketing o es ya una realidad, creo que está claro que en unos pocos años, será muy complicado diferenciar la realidad de lo irreal.
    Las soluciones a los posibles problemas que vayan apareciendo por fakes, vendrán después y digitalmente hablando, el después puede ser muy tarde.
    También es posible que a los monos se les de pistolas pero con balas de fogueo mientras militares y gobiernes, guarden las balas.

  • #021
    Dani - 19 febrero 2024 - 11:28

    A mí me sorprende mucho lo de las medidas para que las plataformas consigan que nadie genere contenidos que no deban ser generados.

    Dentro de 1 año, cualquiera, en local y con su tarjeta gráfica, podrá generar los vídeos que quiera.

    Al contrario de Bitcoin, que simplemente poniendo penas de cárcel para la posesión o utilización de más de 100.000€ en bitcoin haría que el 99% de la gente de los países desarrollados dejara radicalmente de usarlo, la generación de vídeos privados en local va a ser 100% libre.

    Creo que lo único que se puede censurar, al menos en las plataformas más grandes y quizá sólo has cierto punto, va a ser la distribución de este tipo de vídeos. No eliminará su proliferación, pero no estará disponible en los sitios con buena reputación.

  • #022
    Chipiron - 19 febrero 2024 - 12:11

    Prohibir o restringir este tipo de herramientas es poner puertas al campo.

    La única solución es la educación del público potencial. Tenemos que meter en la mente de toda persona cárnica que cualquier video hiperrealista puede ser, tranquilamente, un deep fake. Por lo tanto, a partir de ahora no será prueba de nada.

    Si no tenemos claro eso, se puede liar parda…

    • Gorki - 19 febrero 2024 - 13:22

      Totalmente de acuerdo.
      Si yo escribo que Enrique Dans es extraterrestre, ¿Te lo crees? .- No.

      Pues si hago un video a en la que se le ve descender de una nave extraterrestre, tiene que aprender a pensar, que en principio es una idiotez hecha por cualquiera, por muy real que se vea el vídeo.

      • Enrique Dans - 19 febrero 2024 - 13:27

        Eeeeeh, estoooo… tengo algo que deciros, Gort Klaatu barada nikto…

  • #025
    Dedo-en-la-llaga - 19 febrero 2024 - 19:44

    De los productores (Open AI) de «Estamos muy preocupados por este engendro que hemos creado» , llega «Agárrame el cubata que verás el notición que les traigo a estos pringados».

    Con estos señores esto de reír es un sin vivir…

  • #026
    Luisondome - 20 febrero 2024 - 19:29

    La IA y especialmente la IA Generativa van a conseguir el objetivo que desde su inicio persiguieron sus creadores y desarrolladores: que todo lo que pudiera parecer natural, fuera artificial. Que lo artificial pareciera ser real, y así ningún observador pudiera distinguir lo uno de lo otro.
    Adiós a lo natural y a lo real, y viva lo artificial.

Dejar un Comentario

Los comentarios están cerrados