Building a Corpus for Corporate Websites Machine Translation Evaluation. A Step by Step Methodological Approach Rivera Trigueros, Irene Olvera Lobo, María Dolores El objetivo de este trabajo es describir el proceso llevado a cabo para desarrollar un corpus paralelo compuesto por textos extraídos de las páginas web corporativas de PYMES del sur de España del sector sanitario que servirá de base para la evaluación de la calidad de la MT. Las etapas para la compilación de los corpus paralelos fueron: (i) selección de sitios web con contenidos traducidos al inglés y al español, (ii) descarga de los archivos HTML de los sitios web seleccionados, (iii) filtrado de archivos y (iii) filtrado de archivos y emparejamiento de los archivos en inglés con sus equivalentes en español, (iv) compilación de corpus individuales (EN y ES) para cada uno de los sitios web seleccionados, (v) fusión de los corpus individuales en un corpus de dos corpus generales. los corpus individuales en dos corpus generales, uno en inglés y otro en español. español, (vi) selección de una muestra representativa de segmentos que se utilizarán como traducciones originales (ES) y de referencia (EN), (vii) construcción del corpus paralelo destinado a la evaluación de la MT. El corpus paralelo generado servirá para la futura evaluación de la calidad de la traducción automática. Además, los corpus monolingües generados durante el proceso podrían servir de base para llevar a cabo investigaciones centradas en análisis lingüístico-bilingüe o monolingüe. 2023-01-19T12:50:51Z 2023-01-19T12:50:51Z 2021 conference output Rivera-Trigueros, I. & Olvera-Lobo, M. D. (2021). Building a Corpus for Corporate Websites Machine Translation Evaluation. A Step by Step Methodological Approach. En: Mitkov, R.; Sosoni, V.; Giguère, J.L.; Murgolo, E. & Deysel, E. (eds.) Proceedings of Translation and Interpreting Technology Online (TRITON 2021), 5-7 July 2021, 93-101. https://hdl.handle.net/10481/79152 https://doi.org/10.26615/978-954-452-071-7_011 eng http://creativecommons.org/licenses/by-nc-nd/4.0/ open access Attribution-NonCommercial-NoDerivatives 4.0 Internacional