El
proyecto EUROTRA en el marco de la investigación sobre traducción por ordenador
F. Marcos Marín / A. Moreno Sandoval / F. Sánchez
León
El proyecto EUROTRA; sus
antecedentes y técnicas, ponen de relieve grandes problemas para la traducción
mecánica por ordenador. Pero las perspectivas resultan, a pesar de todo, prometedoras.
INTRODUCCIÓN
La traducción por ordenador ha conocido, en sus
cuatro escasas décadas de vida, vicisitudes que van desde el entusiasmo
hasta la moderación, pasando por el repudio. Tal vez
esta ajetreada existencia nos está acercando a un horizonte, imprescindible,
de planteamientos limitados, junto a los inevitables proyectos totales
ambiciosos. Tampoco es cierto que ante la existencia de la traducción mecánica
los afectados se dividan en acérrimos partidarios o en igualmente encarnizados
enemigos. El Translation Practices
Report realizado por Digital muestra que la ausencia
de una actitud positiva o negativa predefinida con respecto a ella
caracteriza a los profesionales, entre el 40 y el 50 por ciento. Las secciones
administrativas de los ministerios son las más favorables (28 por ciento),
mientras que los traductores no asalariados son los más opuestos (también el 28
por ciento).
La traducción por ordenador no es un concepto unívoco, sino que caben hasta tres tipos de
instrumentos: la traducción mecánica, llamada también
"automática" (MT), la traducción con ayuda de la máquina (MAT) o
"traducción asistida", y los bancos de datos terminológicos (TD). El
término "automática", tomado del francés, no es el idóneo, porque en
realidad se trata de una traducción mecánica, hecha por una máquina de acuerdo
con unas pautas que han sido preparadas, los programas. La traducción ayudada
o asistida supone una interacción entre el ordenador y la máquina, de distintos
grados: el hombre puede ser el director de la traducción y pedir a la máquina que le resuelva una serie de problemas mecánicos,
no puramente léxicos o, más rigurosamente, se trata de que la máquina vaya
realizando los procesos de análisis y acción sobre el texto y, en el caso de
que se encuentre con ambigüedades u otros problemas que no pueda resolver,
pregunte al traductor humano cuál es la solución en este caso.
La oposición de partida radica en el concepto
mismo de traducción, no en su cara teórica, sino en la práctica. Por ello se
llega a una oposición entre traducción técnica y traducción literaria, con la
pretensión de que el estilo sería la marca distintiva. Sin embargo, la
situación es mucho más complicada, al servir la traducción a dos finalidades
diferenciadas: la adquisición de información y la distribución de la misma.
Mientras que la primera tiende a ser aséptica, la segunda está
irremediablemente vinculada a los problemas de mercado y distribución del producto,
por lo cual están presentes en sus textos no sólo los aspectos técnicos, sino
también, de forma más o menos velada, los intentos de actuar sobre el
receptor, por la vía del convencimiento. La connotación se introduce así en el
lenguaje técnico, jugando un mala pasada a los defensores
del supuesto carácter denotativo de éste y, de rechazo, a los traductores.
Hasta seis técnicas lingüísticas, opuestas y
combinables, se aplican para estos fines: directa en oposición a indirecta, interlingua frente a transfer,
enfoque local o enfoque global. Los interesados no son centros de
investigación, sino empresas de todo tipo, desde universidades hasta casas
comerciales. El mercado no está sólo a la espera, también absorbe productos que
se le van sirviendo. A1 fondo, como perspectiva final, está la posibilidad de
procesar la lengua natural como llave para la inteligencia artificial. Ante
esto no falta quien dibuje una sonrisa y mueva la cabeza. Sin embargo, son ya
miles y miles de páginas las que se traducen por medio de los ordenadores y la
realidad indiscutible es que, en nuestras sociedades modernas, los seres
humanos no dan abasto a las necesidades de traducción. Hemos de traducir y no
tenemos suficientes traductores, ni tiempo, ni locales, las máquinas pueden
ayudar a resolver la situación, aunque de momento sea en forma imperfecta.
El último adjetivo es la clave de la
cuestión. Pedimos a los ordenadores una perfección que
no se exige al traductor humano. Todos nosotros leemos cientos de páginas
traducidas al año, si no al mes, y podríamos preguntarnos qué grado
satisfacción alcanzan esas traducciones humanas, qué errores hemos detectado y
cuántos otros se nos habrán escapado, alguno seguramente (no posiblemente)
grave. Parece que el hombre descargara en su instrumento la frustración por sus
limitaciones como creador.
LAS CUATRO DÉCADAS
La era de los ordenadores empezó en 1946;
poco tiempo 'después se iniciaron los primeros intentos de traducción mediante
su uso. Las técnicas de programación eran rudimentarias, a veces puramente
físicas (cableado e interconexiones); las máquinas tenían una muy escasa
memoria, que físicamente, al ser de válvulas de vacío, ocupaba un espacio
desproporcionado. La finalidad de los primeros proyectos era muy ambiciosa: sus
autores creían que una lengua es un código, como los empleados en las transmisiones,
y pensaban que "lo único" que había que hacer era descifrar ese
código de la lengua "fuente" y cambiar su cifra por la de la lengua
receptora o "meta". Construyeron diccionarios para un sistema de
traducción literal palabra por palabra, que debía ir seguido de una
reordenación ‑de la cadena de palabras para pasar a la sintaxis de la
lengua meta. Los conocimientos lingüísticos eran también muy primitivos y los
autores de los sistemas tampoco eran lingüistas, característica que,
desgraciadamente, se ha mantenido en muchos de los proyectos (las excepciones
suelen corresponder, precisamente, a los que han funcionado mejor, como el
canadiense Taum, autor de METEO).
Los años sesenta conocen la primera y mayor
crisis, hasta ahora, de la traducción mecánica. Se produce una situación
contradictoria, que no parece haber sido analizada acertadamente. Sin pretender
haber encontrado la clave que la explique, creemos que vale la pena hacer
algunas consideraciones al respecto. La sección de Ciencias del Comportamiento
de la National Academy of Sciences encargó a un Automatic Language Processing Advisory Commitee (ALPAC) un informe sobre "Lenguas y
máquinas, los ordenadores en la traducción. y la
lingüística", publicado por el National Research Council en Washington en
1966. El informe, muy negativo, provocó el sucesivo abandono de la financiación
de los proyectos de traducción mecánica por el gobierno norteamericano (en
1975 no quedaba ninguno así financiado), pero no impidió el desarrollo de
proyectos a largo plazo en lingüística informática, logró la unión de los lingüistas
interesados en este campo y no pudo parar ni la investigación ni el uso de los
programas ya existentes, en las propias oficinas ministeriales
norteamericanas.
La reacción lingüística es comprensible: los
sesenta son los años del formidable desarrollo de la lingüística chomskiana, caracterizada por su frontal oposición a los
planteamientos conductistas que estaban en la base del informe ALPAC. Muchas
tesis generativas, paradójicamente las menos seguras y hoy abandonadas,
sostenían posiciones muy favorables a los investigadores de la traducción
mecánica. La Universidad de Montreal, por ejemplo, ha mantenido un proyecto de
traducción (TAUM) que se desarrolló sobre estas bases
teóricas y que ha contado con escelentes lingüistas.
La reacción "oficinesca" también es explicable: para el enorme número
de fórmulas, ritos y memoriales de escasa variación un mecanismo automatizado
es muy necesario; la multiplicación de la burocracia lo hace imprescindible.
No se olvide, por otra parte, que los ordenadores iban sufriendo progresivas
mejoras y eran cada vez más capaces de ocuparse de las lenguas naturales, al
igual que los programas y todos los periféricos que hoy forman esa potente
rama de la "Ofimáticá". El desarrollo de
diccionarios, bases de datos, procesadores de textos, editores y correctores
de grafía y. estilo está intrínsecamente relacionado con este campo.
La tercera década, la de los setenta, es la
década comercial y de la iniciativa privada, con lo que se vuelve a demostrar
que éste es el único modo de progresar. Veamos un ejemplo: la financiación
gubernativa había permitido a la Universidad de Tejas crear el Centro de Investigación
Lingüística en 1961 e iniciar el proyecto METAL (Mechanical
Translation and Analsys of Languages). Se acabaron los fondos oficiales en 1974 y acabó,
momentáneamente, el proyecto, para renacer, años después, gracias a otra ayuda
oficial; pero dado el carácter feble que tomaba, la empresa alemana Siemens,
que participaba en esta segunda fase, acabó haciéndose cargo por entero de él
en 1980. El grupo TAUM‑METEO, surgido de TAUM, que el gobierno
canadiense financiaba desde 1965, pudo instalar en 1977 el sistema METEO, el
único sistema de traducción que puede llamarse de verdad
"automático", para la traducción de partes meteorológicos. Sin
embargo, los costos elevados del proyecto TAUM‑AVIATION y la lentitud
de su desarrollo causaron su cancelación en 1981. Otros sistemas se instalan,
SYSTRAN, del GAT, grupo de la Universidad de Georgetown, adoptado en 1974 por
la NASA, la oficina americana del espacio, pervive, combinado y mejorado por
otros sistemas que lo van perfeccionando. Adquirido por diversas compañías y
entidades, como General Motors y la Comunidad
Europea, fue uno de los elementos iniciales del proyecto europeo EUROTRA, del
que hablaremos más adelante. Otros sistemas del momento son LOGOS,
parcialmente financiado por Siemens desde 1978; WEIDNER, que desarrolla la Brigham Young University,
sistema que había sido patrocinado por la Iglesia de los Santos de los últimos
Días, los mormones, para la traducción de sus textos religiosos; APANAM, a
partir del sistema de la Universidad de Georgetown; GAT, para español e
inglés, es el sistema de la Organización Panamericana de la Salud, en Washington:
en 1980 empezó su funcionamiento efectivo.
Los setenta conocen también la implantación
de los sistemas de traducción ayudada por el ordenador o combinada con él. CULT
empezó en la Universidad China de Hong Kong para traducir del chino al inglés, y ALPS (Automated Language Processing Systems), derivado del
trabajo realizado en la Brigham Young
University, en 1980, incrementado poco después por
investigadores de WEIDNER, cuyos accionistas parecen ser mayoritariamente
japoneses, desde 1983. Este proyecto ha resultado interesante para las
empresas, como IBM, en cuyas máquinas funciona, tanto en el tipo PC/AT como en
los ordenadores mayores, en la modalidad VM/ CMS. Tiene dos niveles de
actuación: el primero, Auto Term, ofrece al usuario,
en pantalla, la traducción de todos los términos que aparecer. en una frase, junto con un procesador de texto plurilingüe y
un consultor de diccionarios rápido. El segundo nivel, Trans
Active, analiza oraciones a base de preguntar al usuario cuando se encuentra
ante algún punto confuso, tras lo cual produce una traducción de esa oración.
Los ochenta se iniciaron, por tanto, en
plena recuperación del interés por la investigación. En 1982 los japoneses
anunciaron su proyecto de ordenador de quinta generación, uno de cuyos
elementos esenciales era la lengua natural, incluyendo la traducción mecánica:
el proyecto MU, en este caso. Este planteamiento de la década de los ochenta
tiene una repercusión que todavía no se presenta con crudeza, pero que tenderá
a ello: la creciente exigencia de los lingüistas a participar en el plano que
les corresponde en la investigación de lingüística informática, apoyada por
el hecho innegable de que esta participación ha proporcionado resultados
satisfactorios, en la mayoría de los casos. Tal vez por ello ciertos
"expertos" en inteligencia artificial han pretendido desmarcarse de
la traducción mecánica, intensificando los trabajos de robótica, que son los
menos interesantes para los lingüistas y los más espectaculares. Hay, empero,
una observación que no es baladí: mientras que este tipo de investigaciones incide
en el mercado del trabajo y en la ecología, la investigación lingüística mejora
las condiciones de aquél y crea nuevos puestos.
Una de las características más notables de
los proyectos de los ochenta es su carácter universitario. Siguen algunos de
los programas anteriores, como hemos visto; pero, junto a ellos, se
desarrollan las nuevas investigaciones en las universidades y centros
asociados. CETA (Groupe d'Études
pour la Traduction Automatique) se creó, tras el abandono de CETA, en Grenoble, Francia. SUSY‑II empezó en 1981, para
sustituir a SUSY (Saarbrücker Übersetzungssystem),
cuyos objetivos eran no sólo lenguas naturales como el alemán, inglés, francés
y ruso, sino también artificiales, como el esperanto. Exclusivamente
universitario es el proyecto que más directamente nos afecta, por la participación
de España: EUROTRA, el más internacional y de mayor cobertura lingüística, al
abarcar a todas las lenguas nacionales de la Comunidad Europea.
Esta situación ha conducido, en esta segunda
mitad transcurrida de la década, a que se renueve el
interés de las casas comerciales, como IBM, cuyo proyecto MENTOR, que se lleva
a cabo en Madrid e Israel, empezó en 1987 en su primera fase.
El proyecto EUROTRA, probablemente el más
ambicioso de cuantos proyectos de traducción mecánica se desarrollan en la
actualidad, empezó a funcionar como tal en 1982.
La Comunidad Económica Europea se propuso
dos objetivos fundamentales para su proyecto:
• La construcción de un prototipo pre‑industrial de un sistema de traducción mecánica
para las lenguas oficiales de la Comunidad.
• La formación de expertos en traducción por ordenador y otras áreas
de la lingüística computacional dentro de los países comunitarios.
El prototipo ha de ser multilingüe y capaz
de proporcionar traducciones de una calidad aceptable sin la intervención
humana antes o durante el propio proceso de traducción. No se descarta, sin
embargo, la posibilidad de que sea necesaria una ligera labor de postedición humana de los documentos traducidos por el
prototipo ‑como es común en todos los sistemas actuales, tanto en los
que ya funcionan como en los que se encuentran en fase de desarrollo.
Lo ambicioso de este proyecto es el número
de lenguas que pretende cubrir: español, francés, inglés, italiano, portugués,
alemán, danés y, como caso excepcional ‑ya que se trata de una lengua
incluso grafémicamente muy distinta a las restantes,
cuyos caracteres no son soportados por los ordenadores convencionales‑,
griego. Traducir un documento de cualquiera de las nueve lenguas oficiales de
la Comunidad a cualquier otra por el método de transfer,
que se describe en el epígrafe siguiente, supone la creación de 9x8=72 módulos
de transferencia para cubrir todos los pares de lenguas posibles, sin olvidar
los nueve módulos de análisis, uno para cada lengua, y los nueve de generación.
Ésta es, como puede verse, una tarea nada despreciable que habrá de estar
terminada para el año 1990.
En cuanto al volumen del diccionario, pieza
fundamental en cualquier sistema que pretenda manipular de alguna forma la
lengua natural, se ha establecido en 20.000 entradas, en esta primera fase del
prototipo, del área temática de las nuevas tecnologías de la información, que
es el submundo elegido para EUROTRA. La construcción
del diccionario es, sin duda, uno de los trabajos más pesados y costosos en
tiempo y número de personas de los sistemas de traducción mecánica. Mientras
que un analizador sintáctico es fácilmente utilizable, con leves modificaciones,
en varios proyectos distintos, un diccionario rara vez lo es, dado que no
todos los sistemas emplean la misma información semántica, por ejemplo, o que
quizá los programas esperan que ésta aparezca ordenada de determinada manera.
En este sentido, es importante la labor de grupos como los de las universidades
de Pisa (Italia) y de Kyoto (Japón), que están tratando de convertir los ya
existentes diccionarios legibles por ordenador (machine‑readable dictionaries, MRD) en
estructuras manejables por sistemas de procesamiento de la lengua natural, y
que podríamos llamar bases de datos léxicos (lexical
databases, LDB). Es mucho el tiempo y el dinero que
ahorrarían a todo tipo de proyectos que podrían beneficiarse así del trabajo
realizado por otros, quizá más concienzudamente.
También resultan de gran ayuda para el lexicógrafo
que tenga a su cargo la elaboración del diccionario de un sistema de traducción
por ordenador los bancos de datos terminológicos (terminology
databanks, TD), que ponen a su disposición la más
fidedigna y actualizada traducción de términos sobre ramas de la ciencia y de
la técnica que están en continuo cambio y crecimiento. Una vez incorporados a
su diccionario, la traducción que proporcione su sistema de traducción
mecánica será más ajustada en este sentido que cualquier traducción humana.
Por último, cabe mencionar que existen dos
grupos de investigación de EUROTRA funcionando en España, uno en la
Universidad Autónoma de Madrid y otro en la Central de Barcelona, encargados,
respectivamente, de la elaboración del diccionario, la normalización del texto
y la morfología, y de los niveles sintáctico, relacional
y semántico, además de los módulos de transferencia.
TÉCNICAS LINGÜÍSTICAS
Si la finalidad es una traducción directa,
de una lengua determinada a otra bien determinada (p. ej., GAT), las técnicas
lingüísticas procurarán, sencillamente, tener en cuenta las necesidades de la
lengua a la que se traduce, por ejemplo a la hora de deshacer ambigüedades. Los
proyectos como EUROTRA, en cambio, cuya meta son muchas lenguas, deben
construir analizadores y sintetizadores independientes. A muy grandes rasgos,
podemos decir que los pasos son los siguientes:
1. Se toma una oración de la lengua fuente y se
somete a un proceso de análisis, en el cual se van determinando las
características morfológicas, las especificaciones sintácticas abstractas, y
los rasgos semánticos. Para ello hay procedimientos específicos: analizadores
morfológicos, procedimientos sintácticos, como las redes de transición o las
redes de transición aumentadas, técnicas de trazado o parsers:
de arriba abajo o de izquierda a derecha, de abajo arriba o de derecha a
izquierda. La combinación de estos medios va desambiguando
la oración y proporciona (en el caso ideal) una interpretación definitiva. Esta
interpretación se presenta como un conjunto de rasgos abstractos, como una
representación de la abstracción de esa oración fuente.
2. El segundo paso sería la transición de ese
nivel abstracto, el más abstracto posible, de la lengua fuente al nivel también
más abstracto posible de la lengua meta. Los problemas implicados son varios, y
fundamentales, por lo que volveremos a ellos una vez finalizada esta
exposición esquemática.
3. El tercer gran paso del esquema es la generación
de la oración en la lengua meta que corresponde a la lengua fuente. Para ello
se hace uso de generadores sintácticos y morfológicos (que corresponden a los
analizadores del mismo tipo usados en la primera fase) que tienen en cuenta las
especificaciones del análisis de los rasgos semánticos. Es evidente que la
prueba de que el proceso es correcto sería su reversibilidad: una oración de
la lengua fuente OLF sería traducida a la oración de la lengua meta OLM. Tras
ello partiríamos de OLM, considerada ahora como fuente, y
habríamos de llegar a OLF, ahora como meta. Inútil
decir que este punto todavía no ha sido alcanzado y debemos conformarnos, por
ahora, con aproximaciones. Sin embargo, hay que reconocer que se han superado
los fracasos de la traducción directa, que era una traducción lineal palabra
por palabra dirigida léxicamente, es decir, sin ningún tipo de transferencia estructural
y en la que tan sólo se efectuaba una reordenación de las palabras de la OLM.
El peso de la traducción recae, por tanto, en los diccionarios, que han de
estar muy desarrollados, y en el análisis morfológico. Es ya clásico el
ejemplo de un sistema de traducción directa del inglés al ruso y viceversa,
que debía traducir la siguiente oración:
"El espíritu es fuerte,
pero la carne es débil".
La traducción al ruso fue aceptable,
pero cuando se efectuó el camino inverso con la oración rusa, el resultado fue:
"El vodka es bueno, pero el
filete está podrido".
Ningún sistema actual
medianamente bien pensado ofrecería tan pésimas traducciones.
El paso segundo se da, como hemos visto, en
un nivel profundamente abstracto, al que se llega por
progresivas representaciones de los cargos analizados. Si se emplea un método
de interlingua, se considera que desde el primer nivel
se pasa a representar la "estructura universal" de la oración, que
corresponde a una forma lingüística concreta de una lengua dada, pero que no la
representa como propia de esa lengua, sino como un "contenido
universal" que respeta, necesariamente, pero no calca, la estructura que
representa las oraciones de la lengua fuente y la lengua meta, no se trata de
la "sustancia del contenido", sino de la conformación de ese
contenido en todos los planos lingüísticos: morfofonológico,
sintáctico y semántico. El correspondiente "contenido universal" se
supone que es el mismo en todas las lenguas. A partir de las estructuras de las
lenguas particulares se llega a una suerte de "lugar común lingüístico",
en el sentido matemático, donde todas las estructuras se acoplan en lo común de
la lengua o la común esencia, si usamos el vocabulario del remoto planteamiento
filosófico idealista, neoplatónico, de esta tesis. Ésta sería, precisamente, la
interlingua, cuya base teórica es el concepto de los
"universales lingüísticos". Cabe mencionar que, si bien esta
estrategia es cronológicamente anterior a la de transfer,
es usada hoy en día por pocos de los proyectos en fase de desarrollo, que se
inclinan, la mayoría, por el transfer. La dificultad
radica en la inexistencia, hoy por hoy, de una teoría lo suficientemente desarollada que dé cuenta de la representación de un texto
de forma universal e independiente de la lengua en que esté escrito. Algunos
expertos opinan que, por este motivo, los sistemas de los próximos diez o
veinte años estarán basados en el transfer. Sin embargo,
algunos sistemas de traducción por ordenador que se desarrollan en la
actualidad utilizan la estrategia de la interlingua:
es el caso del sistema holandés Distributed Language Translation (DLT),
sistema multilingüe, basado en realidad en una técnica mixta transfer‑interlingua, que
emplea el esperanto como interlingua, o el de la
empresa japonesa FUJITSU, que se desarrolla, entre
otros países, en España.
Otra técnica es el transfer
o transferencia. Este sistema implica un tercer y nuevo nivel: mediante el
análisis de cada lengua llegamos a un nivel de máxima abstracción en la
representación de los rasgos que son propios, para cada oración. Sin embargo,
entre ese nivel en la lengua F y el correspondiente en la lengua M; es
necesario que haya un convertidor, un sistema que transfiera el
"significado" de F en el de M, este estadio de transferencia o tercer
nivel es el transfer. Por supuesto, cada una de estas
etapas y sus pasos intermedios requieren la elaboración de reglas
lingüísticas y permite la extracción de conclusiones teóricas de gran finura.
El funcionamiento de estas reglas exige que se construyan los programas
correspondientes, para que el sistema de traducción funcione. La mayor atención
concedida a este aspecto, el informático, sobre el primero, el lingüístico,
es, a nuestro juicio, una de las razones de los estancamientos sucesivos de la
traducción mecánica. La solución; por supuesto, no consiste en primar a los
lingüistas en detrimento de los informáticos, sino en determinar con sensatez
los límites de la colaboración y el trabajo específico. Lo significativo de
esta estrategia es que el módulo de transfer es
específico para cada par de lenguas. Por otro lado, la complejidad del transfer está en relación inversamente proporcional a la
profundidad en el estudio del análisis y de la generación. La situación ideal
es la de transfer0, en la que esta fase se reduce al mínimo; sin perder de
vista el hecho de que cuanto mayor sea el nivel de análisis deseado, más
difícil será de conseguir y, por tanto, será menos fiable construir un sistema
de traducción mecánica que se beneficie de esta profundidad de análisis.
EUROTRA, como ya se ha dicho, utiliza la transferencia como etapa central de su
proceso.
Cuando hablamos de enfoque local nos referimos
a sistemas, como SYSTRAN, que parten de un detallado análisis de la palabra:
elementos morfológicos, tipos de derivación, consideración fraseológica,
"sentidos", que son considerados en una etapa inicial. Los
partidarios del enfoque global reprochan al anterior que este análisis se
realiza demasiado pronto, con el fin de desambiguar los homógrafos cuanto
antes, y que podría aprovechar los resultados de otros análisis que se realizan
con posterioridad. METAL, por ejemplo, que es un sistema global, no desambigua en el análisis inicial, de la palabra, sino que
espera a tener en cuenta el contexto, raras veces superior al contexto
oracional, en todo caso.
Con todo, las dificultades para producir un
sistema de análisis automático completo de una lengua son varios, siendo las
más importantes la polisemia y la homonimia de las lenguas naturales. Por
ello, los sistemas de traducción mecánica se ven obligados a reducir su
cobertura, tanto lingüística como conceptual, y el grado de automatización del
proceso de traducción. Así, la solución pasa por delimitar un submundo o sublengua de la lengua
general, o bien optar por algún tipo de traducción asistida por ordenador (MAT). Si se adopta la estrategia de la sublengua,
habrá que buscar una que sea consistente, completa y que presente una elevada
economía de expresión. Una sublengua ofrece las
siguientes ventajas: contiene un subconjunto bastante reducido del léxico total
de una lengua; la polisemia y la homonimia se ven reducidas drásticamente
dado que los significados potenciales han de tener sentido dentro de la sublengua; la cantidad de conocimiento extralingüístico
que maneje el sistema ‑si es que lo hace‑ habrá de limitarse al submundo tratado y no será un conocimiento global del
mundo; el inventario de estructuras sintácticas disponibles en una lengua se
usa tan sólo en una pequeña parte, lo que simplifica enormemente la construcción
de gramáticas. Además, y como una ventaja adicional para la traducción, se ha
comprobado que la semejanza estructural entre sublenguas
correspondientes en distintas lenguas es mayor que la que existe entre dos sublenguas diferentes de la misma lengua. En este sentido,
la elección y delimitación de una sublengua o submundo apropiado no es tarea baladí: así, el grupo TAUM
pudo comprobar lo acertado de su elección al diseñar TAUM‑METEO, que
traducía partes meteorológicos, y el fracaso que supuso tomar como sublengua la de los manuales de mantenimiento aeronáutico
para su proyecto TAUM‑AVIATION.
Si se opta, sin embargo, por la traducción
asistida por ordenador (MAT) en alguna de sus modalidades, habrá que
determinar, en primer lugar, el grado de ayuda humana a la traducción.
Suponiendo que ésta sea la mínima posible, estaremos ante un sistema de
traducción mecánica ayudada por el hombre (human‑arded machine tránslation, HAMT). La ayuda humana podrá realizarse antes de la traducción
(preedición), reescribiendo giros y reemplazando
palabras ambiguas por otras que para el sistema tengan un significado único,
después de la traducción (postedición), corrigiendo
posibles errores y limando el estilo de la traducción, o durante el propio
proceso de traducción (traducción interactiva), siendo ésta un diálogo con la
máquina que ayude al sistema en la labor de desambiguación. Esta última
estrategia es la más complicada (aunque también la más atractiva) por cuanto
que necesita de la incorporación al sistema de un módulo de diálogo hombre‑máquina.
Muy relacionada con la interlingua,
aunque sin tratarse de una técnica lingüística estrictamente, se encuentra la
aproximación a la traducción mecánica desde el punto de vista de la
Inteligencia Artificial. Para la IA, los "universales lingüísticos"
se transforman en lenguajes de representación del conocimiento donde tienen cabida
tanto la información lingüística que se extrae directamente del texto, como
aquella que, no siendo explícitamente mencionada, puede inferirse de éste. En
este tipo de sistemas, el "conocimiento del mundo" que posee el
propio sistema es utilizado en la desambiguación. Para los defensores de esta
escuela, la traducción no es un hecho exclusivamente lingüístico. Así,
algunos de sus sistemas no hacen verdadera traducción, sino paráfrasis de lo
expresado en una lengua en otra.
Un ejemplo concreto nos puede ayudar a
comprender cómo se aplican estas técnicas. EUROTRA, como se ha mencionado
anteriormente, utiliza un modelo de transfer. Esto
influye directamente en los lenguajes de representación por cuanto que no se
necesita un número muy elevado de estos niveles, en los que se descompone la
relación de traducción. (análisis o generación). Esta
descomposición en distintos niveles es necesaria porque no es posible desarrollar
una notación que sea capaz de relacionar textos directamente. Es decir, no
existe un formalismo que describa las relaciones morfológicas, sintácticas y
semánticas al mismo tiempo. Cada lenguaje de representación está definido
explícitamente por medio de una gramática (G), que genera todas las expresiones
posibles en ese nivel. Cada nivel se relaciona con el precedente y el
siguiente mediante traductores (T). Estos
"traductores" simplemente transmiten los objetos lingüísticos creados
en un nivel al siguiente, donde de nuevo pasan por las reglas de la gramática,
y así sucesivamente. Este es el esquema general, donde aparecen ya los distintos
lenguajes de representación con su nombre:
En la breve explicación que seguirá a continuación
agruparemos los niveles por fenómenos, ya sean morfológicos (ENT y EMS),
sintácticos (ECS y ERS) o semánticos (IS).
A los tres primeros niveles (ETS, ENT y EMS)
se los conoce dentro de EUROTRA como base levels o
niveles básicos. ETS (EUROTRA Text Structure) se encarga de la estructura del texto teniendo
como elementos terminales a los caracteres, es decir, a cada carácter le
asigna información acerca de si es una letra, un
blanco, un signo de puntuación, un dígito, etc. En este nivel ya se delimitan
provisionalmente las palabras y las oraciones gracias a los signos de
puntuación y a los blancos, y así se evita la sobregeneración
en los niveles morfológicos y sintácticos.
La morfología se divide en dos niveles: el
más bajo (ENT) se encarga de los aspectos morfografémicos,
por así decirlo, y el superior (EMS) trata las cuestiones puramente morfosintácticas. Es decir, la gramática de ENT se encarga de la normalización de caracteres y, sobre
todo, de la alomorfía. En este primer nivel
morfológico se establece qué combinaciones de letras forman las posibles
cadenas básicas de una lengua determinada. Es importante señalar que en muchas
ocasiones alguno de los "alomorfos" elegidos para establecer estas cadenas
no se corresponde con los utilizados en morfología teórica. Estas cadenas
básicas, que se calculan alrededor de las 10.000 para cada lengua, trasmiten
una información elemental acerca de las posibilidades combinatorias de cada
una, es decir, de si se trata de una raíz, un prefijo,
un elemento flexivo, etc. Con esta información la gramática del siguiente
nivel (EMS) puede combinar distintos "objetos" para formar palabras,
ya plenamente analizadas. De esta forma reciben la categoría gramatical, el
género, el número, el tiempo, la persona, etc,, que se necesitan para el análisis sintáctico
superficial.
ECS y ERS son los niveles sintácticos que se
encargan de establecer la relación entre las palabras y la interpretación
semántica, es decir, ECS agrupa secuencias de palabras en sintagmas y ERS
recoge las relaciones gramaticales que subyacen bajo las realizaciones
superficiales. ECS representa la estructura de constituyentes (SN, SV, etc.),
mientras que ERS trata con sujetos, objetos, etc. La división de trabajo entre
ambos niveles varía según las lenguas y, en consecuencia, no se puede
generalizar que determinados fenómenos deben ser tratados necesariamente en un
nivel u otro; es una cuestión abierta a cada grupo nacional. En español, por
ejemplo, los fenómenos de concordancia entre artículo, nombre y adjetivo, al
caer dentro del ámbito del SN, se tratan en ECS. En cambio, los procesos de pasivización, donde son relevantes las nociones de sujeto
y objeto, se representan en ERS.
IS (Interface Structure)
es el lenguaje de representación más abstracto en nuestro sistema. Es entrada
y salida para el transfer, y punto de contacto entre
las dos lenguas. En este nivel se representan, por un lado, los papeles
temáticos (agente, paciente, instrumento, meta, etc. ); por otro, los rasgos
semánticos (animado, humano, abstracto, concreto, etc. ).
Al llegar a este nivel, toda construcción tiene una "cabeza léxica"
que rige (de ahí el nombre de governor que recibe) al
resto de los argumentos (arg) que dependen de ella.
Esta representación tan abstracta es la que se transfiere al nivel equivalente
de la lengua meta. Entonces comienza el proceso a la inversa, del nivel más
abstracto al más concreto. Esto es lo que se denomina generación.
PERSPECTIVAS
En la previsión del futuro es preciso
diferenciar muchos de los puntos que hemos ido tratando anteriormente. Los
bancos de datos terminológicos, por ejemplo, se benefician ya de los grandes
avances de las técnicas, no sólo en cuanto a los tipos de bancos de datos, sino
de soportes, como el disco óptico, o de posibilidades de acceso, que incluyen
la sencilla línea telefónica y la pantalla del televisor casero. La traducción
ayudada por ordenador también disfruta de esas ventajas y del desarrollo de
los procesadores de textos, que llega hoy con facilidad a los sistemas del
tipo "lo que usted ve (en la pantalla) es lo que tendrá usted al final del
proceso" (what you see is what
you get).
Todos estos adelantos se suman al de la traducción
mecánica en su aspecto más automático. Sin embargo nadie puede creer hoy que
estemos cerca de la solución, y nada sería más negativo que un optimismo
excesivo en este campo. Hace siete mil años el hombre no sabía escribir; de
todos modos, siete mil ,años no son nada, ni siquiera
en la historia de los homínidos, y aproximadamente la
mitad de la humanidad sigue hoy sin saber leer o escribir, pese a tanto avance.
Las soluciones han de venir del doble
frente: los lingüistas, por su lado, y en algunos puntos los lógicos, con
ellos, han de perfeccionar y aquilatar sus técnicas de trabajo, para ofrecer
resultados seguros. Cuando no tenemos todavía ni siquiera una gramática
descriptiva del español completa, no resulta extraño que sea difícil lograr un
buen sistema de traducción. No digamos nada de los estudios semánticos. La
mayor parte de las lenguas de cultura, si no todas, carece de una buena
semántica descriptiva, por no hablar de la de tipo histórico, imprescindible
para la completa explicación de fenómenos y causas. En el lado informático, al
parecer, la exigencia pasa por ordenadores más veloces, instrumentos de uso
común con mayor memoria, cosas no demasiado difíciles de resolver, y también
con capacidad del trazado simultáneo de varios análisis, así como capaces de
acudir a repertorios de informaciones adicionales, como bases de conocimientos,
en casos de duda e indefinición, donde, según todas las noticias, radica el
problema. A este respecto, se hace necesario investigar sobre la forma
adecuada de estructuración de las bases de conocimiento. Asimismo, es
indispensable una mejora del algoritmo de procesamiento, capaz de cubrir mayor
número de fenómenos lingüísticos en un tiempo menor. Por último, ha de
mejorarse el entorno del usuario, de forma que el sistema no obligue a éste a
contestar complicadas preguntas en un lenguaje desconocido para él.
Es muy posible que una de las explicaciones
de los fracasos radique en la pretensión de que el traductor mecánico imite al
traductor humano. Es curioso, porque al inventar la máquina de escribir no se
pensó en copiar la mano y los micrófonos no copian la boca o la oreja. La pretensión
de explicar todo esto y de dar soluciones sería ilusoria. El conjunto de las
meditaciones de todos, sin embargo, podrá ir ayudando a solucionar este
problema, del que depende el éxito del intento.
Para terminar, volveremos al punto de partida:
la traducción mecánica no es un sueño, está ahí. Todos los años se traducen
millones de palabras, cada vez más. Se puede decir que no pasa día sin que las
grandes empresas reciban propaganda de sistemas comerciales accesibles por
teléfono, que ofrecen traducciones revisadas o borradores de traducciones en
plazos mínimos (veinticuatro horas). La exigencia de
perfección es tan exagerada como sería pretender que todos los seres humanos
supiéramos traducir al menos de una lengua. Plantear este intento, sobre todo
vinculado a necesidades de carácter burocrático y técnico, en relación con la
lengua literaria, tiene el mismo sentido que obligar a todos los hablantes de
una lengua a componer poesía. La investigación está abierta, de ella se
beneficia un buen número de seres humanos ya.
REFERENCIAS BIBLIOGRÁFICAS
No citaremos aquí ninguna obra sobre la
traducción en general. Los conceptos informáticos mínimos y la bibliografía
pertinente se encuentran en Francisco Marcos Marín y jesús
Sánchez Lobato, Lingüística Aplicada, Madrid: Síntesis, .988. Para la relación
de los traductores con las nuevas técnicas es muy interesante el Translahon Practices Report, Readmg, Digital Equipment Co. Ltd„
1986. Son ya libros históricos los de A. G. Oetnnger,
Automatic Language Translation, Cambridge (Mass). Harvard Umversity
Press, 1960, y G. Moumn, La Machete
á Tradure. Historie des Problémes
Lingustiques La Haya: Mouton, 1964. Entre estas anécdotas mencionaremos que el
primer artículo en España sobre la matera parece ser el de F. Marcos Marín,
"Posibilidad y dificultades de la traducción automática", Filología
Moderna, 42, 1971, 313‑327. Una buena historia de la traducción por
ordenador puede encontrarse en W, J. Hutchms, Machine Translation: Past, Present, Future, Chichester, England: Ellis Horwood Limited, 1986. La
situación actual se presenta claramente en Jonathan Slocum,
"Machete Translation", Computers
and the Humamhes,
19, 1985, 109‑116. Los números 1, 2 y 3 del vol.
11 de Computahonal Linguistics,
1985, están dedicados a la traducción mecánica, con abundante y moderna bibliografía,
que incluye una sección especial, A Machete(‑aided)
Translation Bibliography",
págs. 170183, que sólo incluye escritos en inglés, francés y alemán, entre
1973 y 1984 La información oficial sobre EUROTRA aparece en la Newsletter, 42, 1985 de la Comisión de las Comunidades
Europeas. Sobre la metodología y el funcionamiento de EUROTRA pueden consultarse M. Kmg,
"EUROTRA: An attemp to achieve multilingual
MT", en V. Lawson (edt), Practica]
Expenence m Machine Translahon,
Amsterdam: North Holland, 1982, pp. 139‑148; M. King y S. Perschke, "EUROTRA and its oblectives'",
Mulrilingua, 1, 1982, 27‑32; R L. Johnson, S. Krauwer, M. Rosner y G. B. Varile, Design of kernel architecture of the EUROTRA
system', en Proceedings of COLING‑84, 1984, pp. 226‑235; D, J,
Arnold, S. Krauwer, M, Rosner,
L, des Tombe y G. B. Varile,
"The < CA>, T framework m EUROTRA: a theoretically committed notaticn for MT", en Proceedings of COLING‑86,
1986, pp. 297‑303; o el muy reciente
A. Bech y A. Nygaard,
"The Eframework: a formalism for natural
language processing'", en Proceedings of COLING‑88, 1988, pp 36‑39.
Algunos de los últimos intentos
de extracción de información semántica de diccionarios legibles por ordenador
pueden encontrarse en N. Calzolan y E. Picchi, "Acquisitton of semantic information
from an ordinary
English dictionary and its evaluation',
ambos en Proceedmgs of
COLING‑88, pp. 87‑92 y 459‑464, respectivamente. Mori Rimon y Luis de Sopeña han
preparado un informe interno de IBM (última redacción que conocemos, febrero
de 1987) titulado Machete Assisted Translation. fi
proposal for IBM EMEA /
oreas Division, que ilustra la actitud de las grandes
compañías y algunas de las perspectivas que se divisan, como puede ser un
cierto interés por la traducción con ayuda del ordenador.