Las Humanidades Digitales y los corpus diacrónicos en línea del español: problemas y sugerencias
Metadatos
Afficher la notice complèteAuteur
Díaz Bravo, RocíoEditorial
Universidad de Granada; Downhill Publishing
Materia
Humanidades Digitales Lematización Etiquetación morfosintáctica Corpus diacrónicos Historia de la lengua española Digital humanities Lemmatisation Part of speech tagging (pos) Diachronic corpora History of the Spanish language
Date
2018Referencia bibliográfica
Rocío Díaz-Bravo (2018). Las Humanidades Digitales y los corpus diacrónicos en línea del español: problemas y sugerencias. En Lidia Bocanegro & Esteban Romero-Frías, Ciencias sociales y Humanidades Digitales aplicadas. Casos de estudio y perspectivas críticas, Granada & Nueva York, Universidad de Granada & Downhill Publishing. [http://hdl.handle.net/10481/63214]
Patrocinador
Este trabajo se enmarca en el proyecto de referencia FFI2017-83400-P (MINECO/AEI/FEDER, UE).Résumé
El objetivo de este capítulo es exponer los resultados de un análisis de corpus diacrónicos del español, centrado especialmente en lematizadores y etiquetadores morfosintácticos, teniendo en cuenta las necesidades y perfiles de usuarios. Los resultados de mis entrevistas con investigadores que trabajan en diferentes proyectos y líneas de investigación de la historia de la lengua española ponen de manifiesto la necesidad de interfaces intuitivas, de corpus lematizados y etiquetados, con opciones de búsquedas que permitan todo tipo de estudios lingüísticos (en todos los niveles, incluida la variación sociolingüística).
En los últimos años se ha incrementado el número de recursos digitales y de corpus diacrónicos del español. A pesar de los avances de los grandes corpus diacrónicos del español –Corpus del Español de Mark Davies (CdE) y Corpus del Nuevo Diccionario Histórico de la Real Academia Española (CDH)–, todavía presentan problemas desde el punto de vista textual y tecnológico.
A través del caso práctico de 'vos' en la historia del español, pretendo demostrar que los grandes corpus del español no son apropiados para muchos tipos de investigación lingüística y que, además, es necesario revisar los datos manualmente. Después de analizar lematizadores y etiquetadores morfosintácticos de español anterior al siglo XX, y de probar su precisión aplicándolos a textos de diferentes periodos, se puede concluir que también deben ser mejorados. Asimismo, el único lematizador de español anterior al siglo XX que sigue estándares internacionales, Freeling, no ofrece una interfaz amigable. Entre las soluciones sugeridas, debe subrayarse la importancia de estándares internacionales (como TEI para la edición de textos y para los metadatos, o EAGLES para la etiquetación morfosintáctica) por razones de transferibilidad y preservación, así como la necesidad de aumentar la colaboración y el entendimiento entre disciplinas (Humanidades Digitales, Lingüística Computacional e Historia de la Lengua Española). The aim of this paper is to show the results of an analysis of Spanish diachronic online corpora, with a particular emphasis on lemmatisers s and PoS (part of speech) taggers, taking into account users’ needs and backgrounds.The results of my interviews with scholars working on different projects and areas within the history of Spanish have shown the need for intuitive user-friendly interfaces, lemmatised and an-notated corpora, as well as advanced search options that allow different types of linguistic research (at all linguistic levels, including sociolinguistic variation).In recent years there has been an increasing number of digital resources and diachronic corpora of Spanish. Despite the advances of very large Spanish diachronic corpora –Corpus del Español by Mark Davies (CdE) and Corpus del Nuevo Diccionario Histórico by Real Academia Española (CDH)–, from a textual and a technological point of view, they still exhibit problems. Through the case study of vos in the History of Spanish, I aim to demonstrate that large diachronic corpora of Spanish are not suitable for many types of linguistic research and in addition the data need to be revised manually. After analysing lemmatisers and PoS taggers for pre-20th century Spanish and testing them with texts from different periods in the History of Spanish, it can be concluded that they also need to be improved in terms of accuracy. Furthermore, the only lemmatiser of pre-20th century Spanish that follows international standards, Freeling, is not user friendly.Among the solutions suggested, it is relevant to highlight the importance of international standards (such as TEI for editing texts and metadata, or EAGLES for PoS tagging) for reasons of transferability and preservation; as well as the need for greater collaboration and understanding between disciplines (Digital Humanities, Computational Linguistics and History of the Spanish Language).