Máquina de traducción estadística


Máquina de traducción estadística

Máquina de traducción estadística (SMT) es un paradigma de máquina de traducción donde las traducciones se generan sobre la base de modelos estadísticos cuyos parámetros se obtienen del análisis lingüístico de corpus bilingües. El enfoque estadístico contrasta con los enfoques de traducción automática basada en reglas, así como con traducción automática en base a ejemplos.

Las primeras ideas de la traducción automática estadística fueron introducidas por Warren Weaver en 1949 Tejedor,[1] incluyendo las ideas de la aplicación de la teoría de la información de Claude Shannon. La traducción automática estadística fue reintroducida en 1991 por investigadores de la Thomas J. Watson Research Center de IBM[2] y ha contribuido al resurgimiento significativo del interés por la traducción automática en los últimos años. Hoy en día es, con mucho, el método de traducción automática más estudiado.

Contenido

Bases

La idea detrás de la traducción automática estadística proviene de teoría de la información. Un documento es traducido de acuerdo a la distribución de probabilidad p(e | f) que una cadena de e en el idioma de destino (por ejemplo, Inglés) es la traducción de una cadena de f en el idioma de origen (por ejemplo, francés).

El problema de la modelización de la distribución de probabilidad p(e | f) ha sido abordada de diversas maneras. Un enfoque intuitivo es aplicar el Teorema de Bayes, es decir  p (e | f) \propto p (f | e p) (e) , cuando el modelo de traducción p(f | e) es la probabilidad de que la cadena de origen es la traducción de la cadena de destino, y el modelo de idioma p(e) es la probabilidad de que la secuencia pertenezca a la lengua de destino. Esta descomposición es atractiva, ya que se divide el problema en dos subproblemas. Encontrar la mejor traducción \tilde (e) se hace tomando el que da la probabilidad más alta: \tilde(e) = \arg \ max_ (e \in e^*) p(e | f) = arg \max_ (e \in e^*) p (f | e) p (e) .

Para una aplicación rigurosa de éste se tendría que realizar una búsqueda exhaustiva por pasar por todas las cadenas e * en el idioma nativo. Realizar la búsqueda eficiente es el trabajo de una máquina de decodificación de traducción, que utiliza la cadena extranjera, heurísticas y otros métodos para limitar el espacio de búsqueda y, al mismo tiempo, mantener una calidad aceptable. Este compromiso entre calidad y tiempo de uso también se puede encontrar en la técnica de reconocimiento de voz.

Como los sistemas de traducción no son capaces de almacenar todas las cadenas nativas y sus traducciones, un documento se traduce típicamente frase por frase, pero ni siquiera esto es suficiente. Los modelos de lenguaje suelen aproximarse por modelos de alisado de n-grama y los enfoques similares se han aplicado a los modelos de traducción, pero existe una complejidad adicional debido a la longitud de frase y de diferentes órdenes de palabras en los idiomas.

Los modelos de traducción estadística estuvieron inicialmente basados en palabras, (Modelos 1-5 de IBM Ocultos de Markov Model de Stephan Vogel[3] y el Modelo 6 de Franz-Joseph Och[4] ), pero se lograron avances significativos con la introducción de frases, basada en modelos.[5] Un trabajo reciente ha incorporado sintaxis o estructuras cuasi-sintáctica.[6]

Beneficios

Los beneficios más citados de la traducción automática estadística sobre los paradigmas tradicionales son:

  • Una mejor utilización de los recursos
    • Hay una gran cantidad de lenguaje natural en formato legible por máquina.
    • En general, los sistemas de SMT no se adaptan a cualquier par de lenguas específicas.
    • Artículo sistemas de traducción basada en exigir el desarrollo manual de reglas lingüísticas, que pueden ser muy costosos y que a menudo no pueden generalizarse a otros idiomas.
  • traducciones más naturales

La traducción basada en palabras

En la traducción basads en [[palabra]s], la unidad esencial de la traducción es una palabra de una lengua natural. Normalmente, el número de palabras en frases traducidas son diferentes, por palabras compuestas, morfología y modismos. La relación de la longitud de las secuencias de palabras traducidas se llama fecundidad, que indica el número de palabras extranjeras que cada palabra nativa produce. Necesariamente se asume la teoría de la información, que nos dice que cada uno cubre el mismo concepto. En la práctica esto no es realmente verdad. Por ejemplo, la palabra inglesa corner puede ser traducida en español por rincón o bien por esquina, dependiendo de si es en el sentido de su ángulo interno o externo.

La traducción simple basada en palabras no se puede traducir entre lenguas de diferente origen. Sistemas de traducción basados en palabras relativamente simples pueden ser hechos para hacer frente a altas tasas de fecundidad, pero podrían asignar una sola palabra a varias palabras, pero no al revés[cita requerida]. Por ejemplo, si quisiéramos traducir del francés al Inglés, cada palabra en Inglés podría producir cualquier cantidad de palabras francesas, y no al reves. No hay forma de agrupar dos palabras en Inglés para producir una sola palabra francesa.

Un ejemplo de un sistema de traducción basado en la palabra es el paquete de distribución libre GIZA++ (actualmente de licencia GPL), que incluye el programa de entrenamiento para modelos de IBM y los modelos HMM y 6.[4]

La traducción basada en la palabra no se usa ampliamente hoy en día, los sistemas basados en frases son más comunes. La mayor parte de sistemas basados en la frase siguen utilizando GIZA + + para alinear el corpus. Los alineamientos se utilizan para extraer frases o deducir reglas de sintaxis.[7] Y las palabras que coinciden en la bi-texto sigue siendo un problema discutido activamente en la comunidad. Debido al predominio de GIZA++, ahora hay varias implementaciones de distribución en línea.[8]

La traducción basada en Frases

En la traducción basada en Frases, el objetivo es reducir las restricciones de la traducción basada en palabras, traduciendo secuencias enteras de palabras, donde las longitudes pueden ser diferentes. Las secuencias de palabras se llaman bloques o frases, pero normalmente no son [frase]s lingüísticas, sino frases que se encuentran utilizando métodos estadísticos a partir de un corpus. Se ha demostrado que la restricción de las frases a frases lingüísticas (sintácticamente motivada grupos de palabras, ver categorías sintácticas) disminuye la calidad de la traducción[9]

Idiomas

Dependiendo de los cuerpos utilizados,algunos modismos no puede traducir "idiomáticamente". Por ejemplo, con Canadá como el corpus Hansard bilingüe, "escuchar" casi siempre puede ser traducida como "¡Bravo!" ya que en el Parlamento "Oye, ¡Escúchalo!" se convierte en "¡Bravo!". [10]

Morfología

Orden diferentes de las palabras

El orden de las palabras difiere de lengua a lengua. Una clasificación se puede hacer al nombrar el orden típico de los sujetos (S), verbo (V) y objeto (O) en una oración y se puede hablar, por ejemplo, de SVO o las lenguas VSO. También hay diferencias adicionales en el órden de las palabras, por ejemplo, donde se encuentran los modificadores de los sustantivos, o cuando las mismas palabras se utilizan como una pregunta o como una afirmación.

En reconocimiento de voz, la señal de voz y la representación textual correspondiente se puede asignar a cada uno en otros bloques en orden. Esto no es siempre el caso con el mismo texto en dos idiomas. Para SMT, el traductor automático sólo puede administrar pequeñas secuencias de palabras, y orden de las palabras tiene que ser pensada por el diseñador del programa. Los intentos de soluciones han incluido nuevos pedidos de modelos, donde se adivina una distribución de cambios de ubicación para cada elemento de la traducción del bi-texto alineados. Diferentes cambios de ubicación puede ser clasificados con la ayuda del modelo de lenguaje y el mejor puede ser seleccionado.

Sintaxis

De vocabulario palabras (OOV)

Sistemas SMT almacenar formularios diferentes palabras como símbolos independientes sin ninguna relación entre sí y formas de la palabra o frases que no estaban en los datos de entrenamiento no se pueden traducir. Esto podría ser debido a la falta de datos de entrenamiento, los cambios en el dominio humano, cuando se utilice el sistema, o las diferencias en la morfología.

Véase también

Referencias

  1. W. (1955). Traducción (1949). En: Traducción automática de las lenguas, MIT Press, Cambridge, MA.
  2. P. Brown, S. Della Pietra, V. Della Pietra, y R. Mercer (1993). Las matemáticas de la traducción automática estadística: estimación de parámetros. Lingüística Computacional,19 (2 ), 263-311.
  3. S. Vogel, H. y Ney C. Tillmann. 1996. Basados en HMM Palabra Alineación en StatisticalTranslation. En Coling '96: La 16 ª Conferencia Internacional de Lingüística Computacional, pp. 836-841, Copenhague, Dinamarca.
  4. a b F. Och y Ney H. (2003). Una comparación sistemática de los diferentes modelos estadísticos de alineación. Lingüística Computacional, 29 (1) :19-51
  5. P. Koehn, F. J. Och, y Marcu D. (2003). frase estadísticos basados traducción. En Actas de la Conferencia Conjunta sobre tecnologías del lenguaje humano y la Reunión Anual del Capítulo de América del Norte de la Asociación de Lingüística Computacional (HLT /> NAACL ).
  6. D. Chiang (2005). Un modelo jerárquico basado en la frase de la traducción automática estadística. En Actas de la 43 Reunión Anual de la Asociación de Lingüística Computacional (ACL'05 ).
  7. P. Koehn, H. Hoang, Birch A., C. Callison-Burch, Federico M., N. Bertoldi, B. Cowan, W. Shen, C. Morán, R. Zens, C. Dyer, O. Bojar, A. Constantin, E. Herbst. 2007. Moisés: Kit de herramientas de código abierto para la traducción automática estadística. ACL 2007, Sesión de demostración, Praga, República Checa
  8. P. Gao, S. Vogel, "Las implementaciones paralelas de herramienta de alineación de Word", Ingeniería de Software, Pruebas, y Aseguramiento de Calidad para el Procesamiento del Lenguaje Natural, pp. 49-57, junio de 2008
  9. Philipp Koehn, Franz Josef Och, Daniel Marcu: Frase de traducción estadística basada en ( 2003)
  10. W. Hutchens J. y H. Somers. (1992). Una introducción a la traducción automática, 18.3:322. ISBN 0-12-36280-X

Enlaces externos


Wikimedia foundation. 2010.

Mira otros diccionarios:

  • Traducción automática estadística — Se ha sugerido que este artículo o sección sea fusionado con Máquina de traducción estadística (discusión). Una vez que hayas realizado la fusión de artículos, pide la fusión de historiales aquí. La traducción automática estadística, a la cual a… …   Wikipedia Español

  • Traducción automática — Se ha sugerido que Servicios de traducción automática sea fusionado en este artículo o sección (discusión). Una vez que hayas realizado la fusión de artículos, pide la fusión de historiales aquí. La traducción automática (TA), también llamada MT… …   Wikipedia Español

  • Servicios de traducción automática — Se ha sugerido que este artículo o sección sea fusionado en Traducción automática (discusión). Una vez que hayas realizado la fusión de artículos, pide la fusión de historiales aquí. Existen numerosas herramientas de traducción automática en la… …   Wikipedia Español

  • Enigma (máquina) — Una máquina electromecánica de cifrado rotativo; la versión mostrada es posiblemente la militar, pero es similar a la comercial Enigma D. Enigma era el nombre de una máquina que disponía de un mecanismo de cifrado rotatorio, que permitía usarla… …   Wikipedia Español

  • Primera década de la traducción automática — Los primeros desarrollos informáticos reseñables se realizaron en el famoso ordenador ENIAC en 1946. Entre los investigadores pioneros hay que citar a Warren Weaver, de la Fundación Rockefeller. Él fue quien dio a conocer públicamente la… …   Enciclopedia Universal

  • Google Translate — Traductor Google Traductor Google Información general URL http://translate.google.es/ Tipo de sitio Traducci …   Wikipedia Español

  • Mujeres en la ciencia — Mujer enseñando geometría. Ilustración en los inicios de la traducción medieval de los principios de Euclides, (c. 1310). Las mujeres han contribuido a la ciencia desde sus inicios, aunque no hayan sido reconocidas por ello. Historiadores… …   Wikipedia Español

  • Jardines de Versalles — Palacio y parque de Versalles Nombre descrito en la Lista del Patrimonio de la Humanidad …   Wikipedia Español

  • Sanlúcar de Barrameda — Sanlúcar de Barrameda …   Wikipedia Español

  • Matanzas de Paracuellos — Vista del cementerio de Paracuellos[1] cercano al río Jarama, uno de los lugares donde ocurrieron estos episodios de represión de la Guerra Civil Española, erigido en recuerdo y memoria de los asesinados …   Wikipedia Español


Compartir el artículo y extractos

Link directo
Do a right-click on the link above
and select “Copy Link”

We are using cookies for the best presentation of our site. Continuing to use this site, you agree with this.