Mostrar el registro sencillo del ítem

dc.contributor.authorDíaz Bravo, Rocío 
dc.date.accessioned2020-07-31T06:40:51Z
dc.date.available2020-07-31T06:40:51Z
dc.date.issued2018
dc.identifier.citationRocío Díaz-Bravo (2018). Las Humanidades Digitales y los corpus diacrónicos en línea del español: problemas y sugerencias. En Lidia Bocanegro & Esteban Romero-Frías, Ciencias sociales y Humanidades Digitales aplicadas. Casos de estudio y perspectivas críticas, Granada & Nueva York, Universidad de Granada & Downhill Publishing. [http://hdl.handle.net/10481/63214]es_ES
dc.identifier.isbn9788433863188
dc.identifier.isbn9780989736176
dc.identifier.urihttp://hdl.handle.net/10481/63214
dc.description.abstractEl objetivo de este capítulo es exponer los resultados de un análisis de corpus diacrónicos del español, centrado especialmente en lematizadores y etiquetadores morfosintácticos, teniendo en cuenta las necesidades y perfiles de usuarios. Los resultados de mis entrevistas con investigadores que trabajan en diferentes proyectos y líneas de investigación de la historia de la lengua española ponen de manifiesto la necesidad de interfaces intuitivas, de corpus lematizados y etiquetados, con opciones de búsquedas que permitan todo tipo de estudios lingüísticos (en todos los niveles, incluida la variación sociolingüística). En los últimos años se ha incrementado el número de recursos digitales y de corpus diacrónicos del español. A pesar de los avances de los grandes corpus diacrónicos del español –Corpus del Español de Mark Davies (CdE) y Corpus del Nuevo Diccionario Histórico de la Real Academia Española (CDH)–, todavía presentan problemas desde el punto de vista textual y tecnológico. A través del caso práctico de 'vos' en la historia del español, pretendo demostrar que los grandes corpus del español no son apropiados para muchos tipos de investigación lingüística y que, además, es necesario revisar los datos manualmente. Después de analizar lematizadores y etiquetadores morfosintácticos de español anterior al siglo XX, y de probar su precisión aplicándolos a textos de diferentes periodos, se puede concluir que también deben ser mejorados. Asimismo, el único lematizador de español anterior al siglo XX que sigue estándares internacionales, Freeling, no ofrece una interfaz amigable. Entre las soluciones sugeridas, debe subrayarse la importancia de estándares internacionales (como TEI para la edición de textos y para los metadatos, o EAGLES para la etiquetación morfosintáctica) por razones de transferibilidad y preservación, así como la necesidad de aumentar la colaboración y el entendimiento entre disciplinas (Humanidades Digitales, Lingüística Computacional e Historia de la Lengua Española).es_ES
dc.description.abstractThe aim of this paper is to show the results of an analysis of Spanish diachronic online corpora, with a particular emphasis on lemmatisers s and PoS (part of speech) taggers, taking into account users’ needs and backgrounds.The results of my interviews with scholars working on different projects and areas within the history of Spanish have shown the need for intuitive user-friendly interfaces, lemmatised and an-notated corpora, as well as advanced search options that allow different types of linguistic research (at all linguistic levels, including sociolinguistic variation).In recent years there has been an increasing number of digital resources and diachronic corpora of Spanish. Despite the advances of very large Spanish diachronic corpora –Corpus del Español by Mark Davies (CdE) and Corpus del Nuevo Diccionario Histórico by Real Academia Española (CDH)–, from a textual and a technological point of view, they still exhibit problems. Through the case study of vos in the History of Spanish, I aim to demonstrate that large diachronic corpora of Spanish are not suitable for many types of linguistic research and in addition the data need to be revised manually. After analysing lemmatisers and PoS taggers for pre-20th century Spanish and testing them with texts from different periods in the History of Spanish, it can be concluded that they also need to be improved in terms of accuracy. Furthermore, the only lemmatiser of pre-20th century Spanish that follows international standards, Freeling, is not user friendly.Among the solutions suggested, it is relevant to highlight the importance of international standards (such as TEI for editing texts and metadata, or EAGLES for PoS tagging) for reasons of transferability and preservation; as well as the need for greater collaboration and understanding between disciplines (Digital Humanities, Computational Linguistics and History of the Spanish Language).es_ES
dc.description.sponsorshipEste trabajo se enmarca en el proyecto de referencia FFI2017-83400-P (MINECO/AEI/FEDER, UE).es_ES
dc.language.isospaes_ES
dc.publisherUniversidad de Granada; Downhill Publishinges_ES
dc.rightsCreative Commons Attribution-NonCommercial-NoDerivs 3.0 Licensees_ES
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es_ES
dc.subjectHumanidades Digitaleses_ES
dc.subjectLematizaciónes_ES
dc.subjectEtiquetación morfosintácticaes_ES
dc.subjectCorpus diacrónicoses_ES
dc.subjectHistoria de la lengua españolaes_ES
dc.subjectDigital humanitieses_ES
dc.subjectLemmatisationes_ES
dc.subjectPart of speech tagging (pos)es_ES
dc.subjectDiachronic corporaes_ES
dc.subjectHistory of the Spanish languagees_ES
dc.titleLas Humanidades Digitales y los corpus diacrónicos en línea del español: problemas y sugerenciases_ES
dc.typebook partes_ES
dc.rights.accessRightsopen accesses_ES
dc.type.hasVersionVoRes_ES


Ficheros en el ítem

[PDF]

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Creative Commons Attribution-NonCommercial-NoDerivs 3.0 License
Excepto si se señala otra cosa, la licencia del ítem se describe como Creative Commons Attribution-NonCommercial-NoDerivs 3.0 License