GESTIÓN DE CORPUS MULTILINGÜES

La RAE define corpus como un «conjunto lo más extenso y ordenado posible de datos o textos científicos, literarios, etc., que pueden servir de base a una investigación.» 

Actualmente el número de recursos en formato electrónico ha aumentado considerablemente, por lo que un corpus se convierte en una recopilación de textos electrónicos de acuerdo con un tema o criterio determinado. Así, el traductor recoge una serie de textos representativos del trabajo o proyecto que vaya a realizar para formar su propio corpus.  Para los traductores, es interesante sobre todo crear un corpus paralelo en el que se incluyan los textos y la traducción de los mismos.  

Existen diferentes tipos de corpus. Los principales parámetros para su clasificación se centran en la modalidad de la lengua, en el número de lenguas en las que se presentan los textos, el tamaño o cantidad de los textos que conforman el corpus, entre otros.
Si nos centramos en el número de lenguas, un corpus puedes ser:
  • Monolingüe: corpus compuesto por textos en una sola lengua. Este tipo de corpus da cuenta de una lengua o de una variedad lingüística determinada.
  • Bilingüe o multilingüe: corpus formado por textos en dos (bilingüe) o más lenguas (multilingüe). Estos textos no tienen por qué ser traducciones unos de otros.
Para ayudar a la gestión de estos corpus, existen programas, como Déjà Vu o WinAlign, con los que se puede realizar la alineación de los textos que conforman un corpus. El proceso de alineación consiste en hacer coincidir los párrafos  o frases de los diferentes textos con sus traducciones correspondientes uniéndolos como si fueran unidades de traducción en sí. De esta manera el corpus paralelo sería la base de las memorias de traducción. 

Para realizar esta alineación, primero hay que comprobar que los textos con los que se va a trabajar están en el mismo formato de archivo. Después, habrá que especificar los idiomas para comenzar la alineación. El formato estándar para las memorias de traducción suele ser TMX. Con este formato se facilita el trabajo, ya que se pueden intercambiar MT sin problemas entre los diferentes programas.

No hay comentarios:

Publicar un comentario