GESTIÓN DE CORPUS MULTILINGÜES
La RAE define corpus como un «conjunto lo más extenso y ordenado posible de datos o textos
científicos, literarios, etc., que pueden servir de base a una investigación.»
Actualmente
el número de recursos en formato electrónico ha aumentado considerablemente,
por lo que un corpus se convierte en una recopilación de textos electrónicos de
acuerdo con un tema o criterio determinado. Así, el traductor recoge una serie
de textos representativos del trabajo o proyecto que vaya a realizar para
formar su propio corpus. Para
los traductores, es interesante sobre todo crear un corpus paralelo en el que se
incluyan los textos y la traducción de los mismos.
Existen diferentes tipos
de corpus. Los principales parámetros para su clasificación se centran en la
modalidad de la lengua, en el número de lenguas en las que se presentan los
textos, el tamaño o cantidad de los textos que conforman el corpus, entre
otros.
Si nos centramos en el
número de lenguas, un corpus puedes ser:
- Monolingüe: corpus
compuesto por textos en una sola lengua. Este tipo de corpus da cuenta de una
lengua o de una variedad lingüística determinada.
- Bilingüe o multilingüe:
corpus formado por textos en dos (bilingüe) o más lenguas (multilingüe). Estos
textos no tienen por qué ser traducciones unos de otros.
Para ayudar a la gestión
de estos corpus, existen programas, como Déjà Vu o WinAlign, con los que se
puede realizar la alineación de los textos que conforman un corpus. El proceso
de alineación consiste en hacer coincidir los párrafos o frases de los diferentes textos con sus
traducciones correspondientes uniéndolos como si fueran unidades de traducción
en sí. De esta manera el corpus paralelo sería la base de las memorias de
traducción.
Para realizar esta
alineación, primero hay que comprobar que los textos con los que se va a
trabajar están en el mismo formato de archivo. Después, habrá que especificar
los idiomas para comenzar la alineación. El formato estándar para las memorias
de traducción suele ser TMX. Con este
formato se facilita el trabajo, ya que se pueden intercambiar MT sin problemas
entre los diferentes programas.