Building a Corpus for Corporate Websites Machine Translation Evaluation. A Step by Step Methodological Approach
Identificadores
URI: https://hdl.handle.net/10481/79152Metadatos
Afficher la notice complèteDate
2021Referencia bibliográfica
Rivera-Trigueros, I. & Olvera-Lobo, M. D. (2021). Building a Corpus for Corporate Websites Machine Translation Evaluation. A Step by Step Methodological Approach. En: Mitkov, R.; Sosoni, V.; Giguère, J.L.; Murgolo, E. & Deysel, E. (eds.) Proceedings of Translation and Interpreting Technology Online (TRITON 2021), 5-7 July 2021, 93-101.
Résumé
El objetivo de este trabajo es describir el proceso llevado a cabo para desarrollar
un corpus paralelo compuesto por textos extraídos de las páginas web corporativas de
PYMES del sur de España del sector sanitario que servirá de base
para la evaluación de la calidad de la MT. Las etapas para la compilación de los corpus paralelos fueron:
(i) selección de sitios web con contenidos traducidos al inglés y al español, (ii)
descarga de los archivos HTML de los sitios web seleccionados, (iii) filtrado de archivos y
(iii) filtrado de archivos y emparejamiento de los archivos en inglés con sus equivalentes en español, (iv) compilación de corpus individuales (EN y ES) para cada uno de los sitios web seleccionados, (v) fusión de los corpus individuales en un corpus de dos corpus generales.
los corpus individuales en dos corpus generales, uno en inglés y otro en español.
español, (vi) selección de una muestra representativa de segmentos que se utilizarán como traducciones originales (ES) y de referencia (EN), (vii) construcción del corpus paralelo destinado a la evaluación de la MT. El corpus paralelo generado servirá para la futura
evaluación de la calidad de la traducción automática. Además, los corpus monolingües
generados durante el proceso podrían servir de base para llevar a cabo investigaciones centradas en
análisis lingüístico-bilingüe o monolingüe.