¿El futuro de la Wikipedia es ser editada y mantenida por robots?

IMAGE: Wikipedia logo and bots (CC0)

La coincidencia aproximada en el tiempo de dos noticias relacionadas me ha llamado bastante la atención, y me ha sugerido una reflexión sobre el futuro de un macroproyecto como Wikipedia, la mayor y mejor enciclopedia creada por el hombre en base a la edición colectiva en un entorno abierto.

La primera noticia se refiere al desarrollo de la versión de la Wikipedia en cebuano, un idioma filipino con unos 16.5 millones de hablantes, que ha logrado convertirse en la segunda edición más grande a nivel mundial de la enciclopedia, solo detrás de la edición en inglés, gracias al uso de un bot que lleva a cabo traducciones automatizadas. El consenso entre los editores de Wikipedia es que contar con una página traducida de manera automatizada y sin editar es peor que no tener nada sobre un tema, pero en el caso del bot que traduce la Wikipedia al cebuano, que ha contribuido nada menos que 24 millones de los 29.5 millones de ediciones que se han hecho en su historia, resulta que lo hace con un nivel de calidad verdaderamente elevado. La traducción automatizada es una de las tareas que el machine learning está contribuyendo a mejorar de manera apreciable, y en el caso de algunos pares lingüísticos, se lleva a cabo de una manera cada vez más perfecta.

La segunda noticia se refiere al uso de bots en Wikipedia para reescribir texto en entradas que precisan de algún tipo de actualización. Actualmente se calcula que existen aproximadamente 1,601 bots de uso habitual en todas las ediciones de Wikipedia, que son utilizados de manera rutinaria para llevar a cabo tareas repetitivas, para detectar y evitar el vandalismo retrotrayendo la página a su versión anterior, etc. Pero en algunos casos, algunas de las ediciones han empezado a usarlas para escribir contenido, una función que, además, se lleva a cabo cada vez con una mayor fidelidad y perfección, hasta el punto de hacer su redacción indiscernible de la realizada por un editor humano.

Vista la cuestión, y considerando Wikipedia como una de las obras colectivas más importantes en la historia de la humanidad, ¿podríamos estar vislumbrando un futuro en el que la mayor parte del mantenimiento o la redacción de la Wikipedia la lleven a cabo bots? ¿Qué implicaría algo así en la naturaleza y en la gestión del proyecto? ¿Cuántos y qué tipo de proyectos podrían evolucionar de la misma manera?


This post is also available in English on my Medium page, «Could an army of bots solve all Wikipedia’s problems?«


13 comentarios

  • #001
    Gorki - 23 febrero 2020 - 12:19

    En este post se plantean dos temas; El primero es la calidad que actualmente tiene la traducción automática, y el segundo, la posibilidad de que un bot «escriba» y más concretamente escriba artículos en Wikipedia.

    Vayamos por partes:

    1º- Calidad de la traduccióon. Asombrosa la calidad alcanzada, hoy resulta raro encontrar una incogruencia en las traducciones automatizadas, no llegan en el plano literario a la traducción humana, pero son una herramienta formidable para entender un texto que viene en un idioma que desconoces.

    2º «Escritura» automática. Negar la posibilidad de hacerlo es absurdo, ya se hace y pongo dos ejemplos:
    Valentin Kassarnig, ha creado una máquina de hacer discursos políticos, a partir del contenido de unos 4.000 discursos del Congreso de Estados Unidos. Les traduzco uno:

    ‘Señor portavoz, durante años, los consumidores honestos pero desafortunados han tenido la oportunidad de presentar sus alegatos para que se apliquen las protecciones contra la bancarrota a sus casos y que se cancelen sus deudas razonables y válidos. Tal y como se supone que ha de funcionar el sistema, el Tribunal de Quiebras evalúa varios factores incluidos los ingresos, bienes y deudas para determinar qué deudas pueden ser saldadas y cómo los consumidores pueden volver a alcanzar un estado económico estable. Defienda el crecimiento y la oportunidad. Apruebe esta legislación’.

    Discurso vacíos de contenido si los estudias con detalle, pero no menos de los que elaboran nustros políticos.

    Segundo ejemplo. Lorqviana de Oscar García es un juguete poético que genera romances al estilo de García Lorca mediante la concatenación de versos previamente preparados con resultados como el que sigue:

    La Guardia Civil se aleja
    por encima de las casas
    agua loca y descubierta
    le brota de la garganta.
    En los recodos del aire
    se ve desde las barandas
    un vaso de tibia leche,
    pasión de crines y espadas.
    A las nueve de la noche
    cubre su carne quemada.
    – ¡Toda la alcoba sufría!-
    gritan vírgenes gitanas.
    Avanzan de dos en fondo
    pueblos en la arena parda.

    Como ven se puede conseguir aceptables resultados literarios mediante medios mecánicos. El problema es que por buena que sea la máquina, lo que escribe carece de auténtico sentido.

    Ahora bien, supongamos que tenemos una página de wikipedia dedicada al Rey Don Fabila. que solo dice que lo mató un oso. ¿Podemos encargar a un bot que busque por las inumerables biliotecas digitales, citas de Don Fabila, las traduzca y las de «cuerpo y forma» para completar la ficha de la Wikipedia con todo lo que se sepa de él?

    Yo creo que si, y muy probablemente, aunque el resultado no sea de alto nivel literario, haga de esa entrada, una herramienta mucho mas útil a los historiadores.

    Quien tenga curisidad sobre las máquinas
    .»literarias » pueede leer lo que escribi en mi blog
    https://felixmaocho.wordpress.com/2016/12/04/meccano-generador-de-poesia-a-vapor-de-chris-shute/

    • Miguel Mon - 3 marzo 2020 - 12:07

      Hace ya unos años, en una de las charlas que mantengo con mi amigo «el ingeniero», ya le comenté algo así. El conocimiento escrito es un vehículo bastante eficiente para transportar y mantener la información por parte de los humanos. ¿Hasta que punto un robot puede leer manuales? Es lo que le planteé. Un asistente de manuales, o mejor aún. Qué pueda hacerlo por tí. Que un Bot estudie la carrera de traducción, por ejemplo, para realizar traducciones aprendiendo de las herramientas usadas por los humanos.
      Estoy convencido de que nos vamos acercando cada vez más a ello.

  • #003
    Pedro Amador - 23 febrero 2020 - 16:03

    Es fantástico. Siempre y cuando haya certeza que el BOT no está manipulado… ¿alguien tiene dudas de los ricos no interferirán para que se mencione la mejor versión de sus negocios y actividades?

  • #004
    Xaquín - 23 febrero 2020 - 19:11

    Aprovechando el excelente comentario de Gorki, enlazo con las preguntas finales.

    Eso sí, pasando por un pequeño matiz. Que es la tremenda tozudez de la versión sapiens del homo, para ponerse en situación de seguir evolucionando de forma natural y libre. ¿A donde nos podía llevar unha buena «actualización » del homo sapiens?

    Con el modelo actual humano, modo «stand bye», hasta un bot mediocramente programado puede hacer, y mucho mejor que una enorme cantidad de seres humanos, su trabajo de recompilación, organización y estructuración expresiva de datos.

    Y a nada que mejore la IA , miel sobre hojuelas. Pero ahí ya no me fío un pelo de los programadores humanos (por muy de fiar que pueda ser la IA en su reprogramación). Lo único bueno del asunto es que, como ya se veia en la clásica Cortocircuito (años 80), un tal Johnny 5, nos dá cien millones de vueltas recompilando datos. El problema es, serán capaces de mejorar la interpretación de los datos que hasta ahora no hicieron los humanos, por ejemplo con la Historia de Roma.

    Algo que, por cierto, no solo se da en Historia, también en la lectuar de un «simple» poema. Programadores habemus, más humanistas necesitamus.

  • #005
    Mauricio - 23 febrero 2020 - 19:25

    Enrique, hay una equivocación en tu traducción. En realidad dice que «El consenso entre los editores de la Wikipedia es que una traducción automática sin editar, que se deja como un artículo de la enciclopedia, es peor que nada», es decir, lo contrario de lo que tú afirmas. En la guía de traducciones de la Wikipedia en inglés puedes ver que hay una sección al respecto titulada Avoid machine translations.

    • Enrique Dans - 23 febrero 2020 - 19:38

      Tienes razón. No es error de traducción, es que creí que lo veían así. Lo cambio, gracias!!

      • Mauricio - 24 febrero 2020 - 01:27

        Gracias, Enrique, por tu respuesta. A mí me sucedió algo similar al dar un primer vistazo al artículo de Vice que enlazas. El tema es muy interesante, aunque, por lo visto, el Lsjbot de Sverker Johansson ya no está creando nuevos artículos. No queda totalmente claro, sin embargo, si esto ya no ocurre en ninguna de las tres lenguas en las que fue utilizado (sueco, cebuano y samareño) o solo en dos de ellas.

        Según la Wikipedia en alemán, Lsjbot está inactivo en la Wikipedia en samareño (o waray) desde noviembre de 2015 y en la Wikipedia en sueco desde noviembre de 2016. En cuanto al cebuano (la lengua materna de la esposa de Johansson), he encontrado la página Proposals for closing projects/Closure of Cebuano Wikipedia, en la cual se puede ver la complejidad que tiene el tema de la creación de contenidos en las versiones de la Wikipedia que cuentan con pocos colaboradores y donde el uso de Lsjbot no parece haber sido la mejor solución, sin que quede claro si todavía sigue utlizándose.

        Por lo que veo en Internet, las Wikipedias en polaco, italiano y holandés tienen también un gran número de artículos creados por bots. Parece que en la Wikipedia en holandés el 59% de los artículos caen dentro de esta categoría, a diferencia de la Wikipedia en alemán donde no habría este tipo de escritos.

  • #008
    Ángel - 23 febrero 2020 - 19:36

    Muy interesante el tema. Normalmente consulto la Wikipedia en español, pero me sucede a menudo que cambio al Inglés para chequear si hay más data. Y eso lamentablemente, pasa. Me parece que el futuro de la Wikipedia deberia ser que solo se escriba en inglés. Y cuando se consulta en cierto idioma, que se traduzca al vuelo. Obviamente esto es fácil decirlo, pero no hacerlo, porque hay varias cuestiones a solventar:
    – imágenes que tengan textos embebidos
    – la búsqueda en cada idioma requerirá tener índices en cada uno de ellos.
    – obligar a que todos los editores lo hagan en inglés, no parece muy sensato
    Habría un ahorro de recursos importante si las páginas “traducidas” desaparecen.
    Para pensar.

    • Mauricio - 24 febrero 2020 - 02:50

      La Wikipedia en alemán no tiene nada que envidiarle a la versión en inglés y tiene más usuarios activos que la Wikipedia en español, a pesar de que hay cuatro veces más hispanoparlantes que germanoparlantes. Lo que necesitamos es una mejor organización y un espíritu más panhispánico. Si nos atenemos, por ejemplo, a lo que dice la página sobre los capítulos (o secciones) de Wikimedia, resulta que el correspondiente a España tiene 110 miembros y el alemán más de 50.000. Es más, si uno revisa el sitio web de Wikimedia Deutschland descubrirá que en realidad tienen poco menos de 80.000 miembros, además de cerca de 130 empleados contratados.

  • #010
    Luhram - 24 febrero 2020 - 01:29

    Creo que no hay vuelta atrás en el uso de IA para labores como traducciòn automàtica. Este caso puntual de la Wikipedia en cebuano es la prueba de ello, pero vendrán más usos y ello reconfigurará el mapa de la creación de contenidos en línea.

    No tiene pierde la lectura del artículo enlazado de la web de Vice, que notifica del hallazgo.

    Y para mi gusto particular, el par idiomático Inglés-Español es muy bien servido por Deepl, que sorprende con su calidad en la traducción, muy recomendable.

  • #011
    Ignacio - 24 febrero 2020 - 07:00

    Buenos días Enrique y parroquianos,

    Os dejo un enlace con un estudio de la Universidad de Brown que dice que el 25% de los Tweets sobre cambio climático los escriben bots y que la mayoría son para negar dicho cambio, además aunque la noticia la he leído en la BBC también lo difunde The Guardian (el periódico del buen globalista), además tiene que ver con el tema de esta entrada:

    Study finds quarter of climate change tweets from bots https://www.bbc.co.uk/news/technology-51595285

    Un cordial saludo.

  • #012
    Alejandro Jimenez castro - 10 marzo 2020 - 18:33

    No creo que sea la Wikipedia lo único que sera gestionado por robots en un futuro, pero sigo pensando que el ser humano siempre sera relevante solo que la vida sera algo mas sencilla

  • #013
    Naudot - 14 marzo 2020 - 13:32

    Otro uso que se podría dar a la Inteligencia artificial combinada con traductores serían los subtítulos de vídeos, e incluso de audios. La función de subtítulos de youtube es muy útil, sobre todo si la subtitulación se debe a manos humanas: lo mejor es que esos subtítulos son traducibles a los más de 100 idiomas que permite el traductor de Google, con una precisión que hace casi imperceptible el hecho de que esa traducción de subtitulación humana haya sido traducida. Cuando los subtítulos de Google son generados automáticamente, los resultados en el propio idioma pueden ser pasables, pero muy poco útiles para la traducción mediante el traductor de Google, pues un fallo por palabras homófonas de idéntica pronunciación pero distinta ortografía, los distintos significados de una palabra, junto con la ausencia de puntuación y al hecho de que en subtítulos automáticos las palabras surgen una a una según son pronunciadas en lugar de frase a frase (que además suben hacia el renglón superior cuando surge un nuevo conjunto de unas cinco palabras) hacen que la traducción de un texto generado automáticamente sea un galimatías incomprensible. ¿Conseguirá esta función ser mejorada mediante Inteligencia artificial y machine learning? Ojalá. En cualquier caso, la transcripción automática de la palabra hablada (como también se hace en programas en directo de televisión) facilitaría su corrección por humanos, con mejores posibilidades posteriores de traducción y entendimiento.
    Otra opción interesante es que se puede copiar el texto de los subtítulos de los vídeos de Youtube.
    Derivado de lo anterior, me surge la idea de que se puedan «subtitular» los Podscasts y programas de radio, que quizá resulte a veces más fácil o rápido que escucharlos directamente, además de la posibilidad de traducirlos.
    La opción de subtítulos que podríamos llamar dinámicos (que se permitan optar entre ocultarlos o mostrarlos, y en este último caso traducirlos o no) aún no está disponible en otras webs de vídeo en internet, tales como vimeo, dailymotion ni archive.org . Quizá en un futuro se pueda imitar a Google incluyendo la posibilidad de agregar subtítulos, y aún más, si se llega a algún tipo de colaboración con traductores inteligentes como Deepl.com, se puedan además traducir.
    Subtítulos para personas con dificultades auditivas, por ejemplo en rtve.es y en el canal que Rtve tiene en youtube (por lo que he observado, tan solo cuenta con subtítulos generados automáticamente, y eso que cuenta con la subtitulación humana que se ha utilizado para su emisión en televisión: escasa coordinación): si se une a la posibilidad de traducción, se puede originar una estupenda oportunidad para difundir en todo el mundo la producción audiovisual de Rtve, especialmente de programas de divulgación cultural.
    Todas las opciones se abren por si el Profesor Enrique Dans quiere, como ha expresado en alguna ocasión, ampliar su blog con entradas de videoblog, que pueden aplicarse cuando lo inicie.
    Como en todo, existen muchas posibilidades inexploradas y no especialmente costosas, pero a muchos, empezando por quien esto escribe, nos cuesta ponerlas en marcha.

Dejar un Comentario

Los comentarios están cerrados