El Blog de Enrique Dans

El traductor que piensa

Escrito a las 4:30 pm
6

Este tema me ha gustado tanto que hasta lo he utilizado como examen en el MBA-S1. Llevo años piando por algo así. Lo he visto en este artículo de New Scientist: dos investigadores del Information Sciences Institute de la University of Southern California (USC), Kevin Knight y Daniel Marcu, han desarrollado un programa capaz de traducir textos en bidireccional entre inglés y árabe, chino (simplificado), francés y español (y unidireccional desde el hindi y el somalí) pero provisto de una característica particular: escanea textos de documentos traducidos anteriormente, y desarrolla sus reglas, es decir, “aprende” utilizando un mecanismo basado en estadística, construyendo un sistema de reglas probabilísticas sobre palabras, frases y estructuras sintácticas. Algo completamente distinto de las traducciones primarias, “tarzánicas” y prácticamente ilegibles que desarrollan herramientas como Google Language Tools o Altavista BabelFish Translation.

El programa toma documentos anteriores paralelos (es decir, en pares de documentos traducidos) en forma de ficheros electrónicos, papel o grabaciones de voz, cuantos más mejor, y aísla estructuras simples y superestructuras complejas, que posteriormente ordena en función de frecuencias probabilísticas. Lo realmente novedoso es el uso no de palabras aisladas, sino de estructuras sintácticas, algo que hace pensar a sus creadores que

“… en no mucho tiempo, una máquina descubrirá alguna cosa en el campo de la lingüística que sólo una máquina podría haber descubierto, gracias al poder de procesar billones de palabras”.

Toda una nueva frontera dentro del campo del machine learning. Los dos investigadores fundaron una compañía, Language Weaver, para comercializar los productos derivados de su investigación, con una misión tan sencilla como “producir los mejores sistemas de traducción automática del mundo”. A mí lo que me tiene fascinado ya no es la posibilidad de alimentar a la máquina con “la biblioteca de Alejandría” en bilingüe, sino la idea de suministrarle los textos que yo mismo traduzco, de manera uqe se convierta en “mi” traductor, un programa que utiliza mis mismos giros, expresiones y formas de decir las cosas que utilizo yo. Lógicamente, se podrán utilizar diferentes subconjuntos de documentos, de manera que pueda tener mi traductor preparado para traducir un paper académico con su rígido estilo y convenciones, o un texto informal o periodístico, en el que la estructura se relaja un montón.

Me encantaría probar algo así. El lenguaje humano es algo muy complejo, pero el humano medio tampoco utiliza un número tan elevado de frases y estructuras, se trata de algo perfectamente dentro de la escala de lo que un ordenador, al nivel de potencia actual, puede procesar. Aplicado a la traducción me parece galáctico, pero obviamente ese tipo de análisis estadístico puede ser aplicable a muchos otros ámbitos, como el de las búsquedas que mencionaba no hace mucho.

Ya hay máquinas que aprenden a jugar a “piedra, papel, tijera”, máquinas que traducen idiomas en conversación… máquinas que piensan. Y tengo meridianamente claro que el camino va por ahí.

1 trackbacks

[…] Creo sinceramente que no […]

5 comentarios

001
Antonio Saz
25.02.2005 a las 18:26 Permalink

Hola Enrique,

Pese a lo que pueda parecer esto es mucho menos novedoso de lo que crees. El sistema que proclaman a los cuatro vientos es similar al que la compañía Systran lleva desarrollando desde 1990, y base de una de las herramientas de traducción de la Comisión Europea.

Más aún, lo que han hecho es informatizar el habitual proceso productivo de la traducción a gran escala. Conceptos como “memorias de traducción”, “diccionarios terminológicos” o “programas de alineamiento” son habituales en las herramientas que los traductores manejan desde los años 80, como Translator Workbench de Trados, Déj? -Vu de Atril o Transit de Star.

Saludos

002
alfonso
26.02.2005 a las 09:47 Permalink

Sabeis si está disponible esta nueva herramienta, para uso publico, como altavista y Google

003
Xele
26.02.2005 a las 18:26 Permalink

Ojalá herramientas de este tipo garanticen la coexistencia de distintos idiomas en todo el mundo sin limitar el conocimiento.

004
jose luis portela
27.02.2005 a las 02:05 Permalink

Aqui viene a cuento hablar de lo que dice Jacks Derrida padre de la teoría de la Deconstruccion:

Derrida fue el fundador de la teoría de la reconstrucción. Qué ¿qué es?. En realidad Derrida siempre rechazó las definiciones “esencialistas” pero, básicamente, defendió la tesis de que la lengua es incapaz de transmitir una único significado, o una verdad universal, porque las palabras elegidas, y el punto de vista que adopta la persona que las elige, de forma inevitable, distorsionan la realidad que las palabras presenten representar.

La deconstrucción trata de demostrar que existe tal distorsión de la realidad mediante la descomposición de los textos y poniendo de relieve la ambigüedad y las contradicciones existentes entre ellos.

El problema de la teoría de la deconstrucción, por supuesto, es que no deja lugar a la verdad absoluta: todo cambia, es relativo y siempre existe la duda

Derrida afirmó que el cocimiento histórico era imposible, calificó a la razón de “deshonesta búsqueda de la certeza” y denominó la búsqueda de la verdad como “la ilusión de la metafísica occidental”. En resumen, atacaba los pilares del pensamiento occidental.

saludos

005
Manolo
28.06.2012 a las 14:37 Permalink

Enrique ¿qué opinas de esas empresas que dicen usar la semántica para moderar comentarios realizados por usurios? Esta plagado de ellas y sólo conozco una empresa española que dice qué es imposible. ¿Crees que una máquina puede valorar semánticamente un comentario?

Comentarios cerrados

Logotipo de Blogestudio Logotipo de Acens