Corpus de textos notariales extremeños (CORTENEX S. XVII). La edición de un corpus histórico-lingüístico en el ámbito de las humanidades digitales
Metadata
Show full item recordAuthor
González Sopeña, InmaculadaEditorial
Universidad de Barcelona
Date
2023Referencia bibliográfica
González Sopeña, Inmaculada: "Corpus de textos notariales extremeños (CORTENEX s. XVII). La edición de un corpus histórico-lingüístico en el ámbito de las humanidades digitales", 31, 105-126
Sponsorship
El presente artículo ha sido realizado dentro del marco del proyecto “Atlas Lingüístico y Etnográfico de Andalucía, S. XVIII. Patrimonio documental y humanidades digitales” (Proyectos I+D+i Junta de Andalucía-FEDER, P18-FR-695)Abstract
El presente artículo se centra en la metodología seguida en la elaboración de un corpus de
documentación notarial extremeña del siglo XVII (CORTENEX) siguiendo las propuestas del consorcio TEI
en lo referente a la codificación y etiquetado de documentos históricos. Todo ello se basa en el uso de
lenguaje marcado XML en las transcripciones y en el procesamiento lingüístico de los textos en la
plataforma digital TEITOK a través de cuatro fases fundamentales: tokenización, normalización,
lematización y anotado morfosintáctico. Este corpus se conforma con un subcorpus de Oralia diacrónica
del español (ODE). Actualmente, CORTENEX ya cuenta con documentación accesible y, por el tipo de
textos que incluye, su interés fundamental reside en analizar la variación léxica del español desarrollado
en el territorio que se corresponde con la Comunidad Autónoma de Extremadura. Esta variedad carece
prácticamente de estudios de corte diacrónico que permitan analizar la lengua de aquella región en
perspectiva histórica. This article focuses on the methodology followed in the preparation of a corpus of notarial
documentation from Extremadura during the seventeenth century (CORTENEX), thanks to the proposals
of the TEI consortium regarding the coding and labeling of historical documents. This is based on the use
of XML markup language in the transcriptions and in the linguistic processing of the texts in the TEITOK
digital platform through four fundamental phases: tokenization, normalization, stemming and
morphosyntactic annotation. CORTENEX is a subcorpus of Oralia diacrónica del español (ODE). Currently,
CORTENEX already has accessible documentation, and, due to the type of texts that it includes, its
fundamental interest lies in analyzing the lexical variation of the Spanish developed in the territory that
corresponds to Extremadura. This variety practically lacks diachronic studies that allow analyze the
language of that region from a historical perspective