Las Humanidades Digitales y los corpus diacrónicos en línea del español: problemas y sugerencias

Díaz Bravo, Rocío

dc.contributor.author	Díaz Bravo, Rocío
dc.date.accessioned	2020-07-31T06:40:51Z
dc.date.available	2020-07-31T06:40:51Z
dc.date.issued	2018
dc.identifier.citation	Rocío Díaz-Bravo (2018). Las Humanidades Digitales y los corpus diacrónicos en línea del español: problemas y sugerencias. En Lidia Bocanegro & Esteban Romero-Frías, Ciencias sociales y Humanidades Digitales aplicadas. Casos de estudio y perspectivas críticas, Granada & Nueva York, Universidad de Granada & Downhill Publishing. [http://hdl.handle.net/10481/63214]	es_ES
dc.identifier.isbn	9788433863188
dc.identifier.isbn	9780989736176
dc.identifier.uri	http://hdl.handle.net/10481/63214
dc.description.abstract	El objetivo de este capítulo es exponer los resultados de un análisis de corpus diacrónicos del español, centrado especialmente en lematizadores y etiquetadores morfosintácticos, teniendo en cuenta las necesidades y perfiles de usuarios. Los resultados de mis entrevistas con investigadores que trabajan en diferentes proyectos y líneas de investigación de la historia de la lengua española ponen de manifiesto la necesidad de interfaces intuitivas, de corpus lematizados y etiquetados, con opciones de búsquedas que permitan todo tipo de estudios lingüísticos (en todos los niveles, incluida la variación sociolingüística). En los últimos años se ha incrementado el número de recursos digitales y de corpus diacrónicos del español. A pesar de los avances de los grandes corpus diacrónicos del español –Corpus del Español de Mark Davies (CdE) y Corpus del Nuevo Diccionario Histórico de la Real Academia Española (CDH)–, todavía presentan problemas desde el punto de vista textual y tecnológico. A través del caso práctico de 'vos' en la historia del español, pretendo demostrar que los grandes corpus del español no son apropiados para muchos tipos de investigación lingüística y que, además, es necesario revisar los datos manualmente. Después de analizar lematizadores y etiquetadores morfosintácticos de español anterior al siglo XX, y de probar su precisión aplicándolos a textos de diferentes periodos, se puede concluir que también deben ser mejorados. Asimismo, el único lematizador de español anterior al siglo XX que sigue estándares internacionales, Freeling, no ofrece una interfaz amigable. Entre las soluciones sugeridas, debe subrayarse la importancia de estándares internacionales (como TEI para la edición de textos y para los metadatos, o EAGLES para la etiquetación morfosintáctica) por razones de transferibilidad y preservación, así como la necesidad de aumentar la colaboración y el entendimiento entre disciplinas (Humanidades Digitales, Lingüística Computacional e Historia de la Lengua Española).	es_ES
dc.description.abstract	The aim of this paper is to show the results of an analysis of Spanish diachronic online corpora, with a particular emphasis on lemmatisers s and PoS (part of speech) taggers, taking into account users’ needs and backgrounds.The results of my interviews with scholars working on different projects and areas within the history of Spanish have shown the need for intuitive user-friendly interfaces, lemmatised and an-notated corpora, as well as advanced search options that allow different types of linguistic research (at all linguistic levels, including sociolinguistic variation).In recent years there has been an increasing number of digital resources and diachronic corpora of Spanish. Despite the advances of very large Spanish diachronic corpora –Corpus del Español by Mark Davies (CdE) and Corpus del Nuevo Diccionario Histórico by Real Academia Española (CDH)–, from a textual and a technological point of view, they still exhibit problems. Through the case study of vos in the History of Spanish, I aim to demonstrate that large diachronic corpora of Spanish are not suitable for many types of linguistic research and in addition the data need to be revised manually. After analysing lemmatisers and PoS taggers for pre-20th century Spanish and testing them with texts from different periods in the History of Spanish, it can be concluded that they also need to be improved in terms of accuracy. Furthermore, the only lemmatiser of pre-20th century Spanish that follows international standards, Freeling, is not user friendly.Among the solutions suggested, it is relevant to highlight the importance of international standards (such as TEI for editing texts and metadata, or EAGLES for PoS tagging) for reasons of transferability and preservation; as well as the need for greater collaboration and understanding between disciplines (Digital Humanities, Computational Linguistics and History of the Spanish Language).	es_ES
dc.description.sponsorship	Este trabajo se enmarca en el proyecto de referencia FFI2017-83400-P (MINECO/AEI/FEDER, UE).	es_ES
dc.language.iso	spa	es_ES
dc.publisher	Universidad de Granada; Downhill Publishing	es_ES
dc.rights	Creative Commons Attribution-NonCommercial-NoDerivs 3.0 License	es_ES
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/	es_ES
dc.subject	Humanidades Digitales	es_ES
dc.subject	Lematización	es_ES
dc.subject	Etiquetación morfosintáctica	es_ES
dc.subject	Corpus diacrónicos	es_ES
dc.subject	Historia de la lengua española	es_ES
dc.subject	Digital humanities	es_ES
dc.subject	Lemmatisation	es_ES
dc.subject	Part of speech tagging (pos)	es_ES
dc.subject	Diachronic corpora	es_ES
dc.subject	History of the Spanish language	es_ES
dc.title	Las Humanidades Digitales y los corpus diacrónicos en línea del español: problemas y sugerencias	es_ES
dc.type	book part	es_ES
dc.rights.accessRights	open access	es_ES
dc.type.hasVersion	VoR	es_ES

Files in this item

Name:: Capitulo-RDB-HD-corpus_diacron ...
Size:: 3.740Mb
Format:: PDF

This item appears in the following Collection(s)

DLE - Capítulos de Libros

Show simple item record

Except where otherwise noted, this item's license is described as Creative Commons Attribution-NonCommercial-NoDerivs 3.0 License