Show simple item record

dc.contributor.advisorFelices Lago, Ángel Miguel 
dc.contributor.authorFernández Martínez, Nicolás José
dc.contributor.otherUniversidad de Granada.es_ES
dc.contributor.otherUniversidad de Granada. Programa de Doctorado en Lenguas, Textos y Contextoses_ES
dc.date.accessioned2020-12-01T13:29:35Z
dc.date.available2020-12-01T13:29:35Z
dc.date.issued2020
dc.date.submitted2020-10-21
dc.identifier.citationFernández Martínez, Nicolás José. A linguistically-aware computational approach to microtext location detection. Granada: Universidad de Granada, 2020. [http://hdl.handle.net/10481/64577]es_ES
dc.identifier.isbn978-84-1306-680-6
dc.identifier.urihttp://hdl.handle.net/10481/64577
dc.description.abstractExtracting geospatially rich knowledge from microtexts such as tweets is of utmost importance for location-based systems in emergency services to raise situational awareness about a given emergency (i.e. natural or man-made disasters), such as earthquakes, floods, pandemics, car accidents, terrorist attacks, shooting attacks, etc. (Vieweg et al., 2010; Crooks et al., 2013; Imran et al., 2014; Jongman et al., 2015; Martínez-Rojas et al., 2018; C. Zhang et al., 2019; Siriaraya et al., 2019). In other words, emergency responders and competent authorities need to understand where the incident happened, where people are in need of help, and/or which areas were affected, with the aim of coordinating effective and immediate aid and allocating resources in the affected areas and/or to the affected persons. Such systems could potentially help save lives and/or prevent further damage to environmental or urban areas in emergency- and crisisrelated contexts. The problem is that the wide majority of tweets are not geotagged (Middleton et al., 2014), so we need to resort to the messages in the search of geospatial evidence (Wallgrün et al., 2018). In this context, we present LORE, a multilingual, rule-based location-detection system for English, Spanish, and French tweets that leverages lexical datasets of place names and locationindicative words together with linguistic knowledge through Natural Language Processing and computational techniques. We also present nLORE, a Deep Learning model that feeds off the linguistic knowledge provided by LORE. One of the main contributions of our models is to capture fine-grained complex locative references, ranging from geopolitical entities (e.g. towns, cities, regions, countries, etc.) and natural landforms (e.g. mountains, rivers, lakes, hills, valleys, etc.) to points of interest (e.g. squares, cathedrals, universities, residences, restaurants, museums, etc.) and traffic ways (e.g. streets, avenues, roads, highways, etc.). LORE outperforms wellknown, general-purpose, off-the-shelf entity-recognizer systems typically used in benchmarking (Schmitt et al., 2019): Stanford NER, spaCy, NLTK, OpenNLP, Google Natural Language Cloud, and Stanza. LORE achieves an unprecedented trade-off between precision and recall, while showing similar performance when applied to other corpora. nLORE outperforms LORE by a slight margin, and confirms the usefulness of linguistic-based feature engineering in Artificial Intelligence (Linzen, 2019). Therefore, our models provide not only a quantitative advantage over other well-known entity-recognizer systems in terms of performance and accuracy but also a qualitative advantage in terms of the diversity and semantic granularity of the locative references extracted from the tweets.es_ES
dc.description.abstractLa extracción de información geoespacial rica de microtextos como los tweets es sumamente importante para sistemas geolocalizadores en servicios de emergencias para contribuir a la conciencia situacional sobre una emergencia como desastres naturales o producidos por el hombre, ya sean terremotos, inundaciones, pandemias, accidentes de tráfico, ataques terroristas, tiroteos, etc. (Vieweg et al., 2010; Crooks et al., 2013; Imran et al., 2014; Jongman et al., 2015; Martínez-Rojas et al., 2018; C. Zhang et al., 2019; Siriaraya et al., 2019). Dicho de otra manera, los servicios de emergencias y autoridades competentes necesitan comprender dónde ha ocurrido el incidente, dónde necesita la gente ayuda y/o qué lugares han sido afectados con el objetivo de proporcionar asistencia inmediata y destinar recursos en aquellas áreas o a aquellas personas afectadas. Estos sistemas podrían servir para salvar vidas y prevenir futuros daños a zonas urbanas o áreas medioambientales en contextos de crisis o emergencias. El problema reside en la escasez de tweets geoetiquetados (Middleton et al., 2014); por tanto, ha de recurrirse a los mensajes de texto en búsqueda de esa evidencia geoespacial (Wallgrün et al., 2018). En este contexto, presentamos LORE, un sistema multilingüístico de detección de localizaciones en tweets en inglés, español y francés basado en reglas que integra recursos léxicos de nombres de lugar y de palabras que indican localización junto con conocimiento lingüístico proporcionado por diversas técnicas computacionales de Procesamiento de Lenguaje Natural. También introducimos nLORE, un modelo basado en Deep Learning que se nutre del conocimiento lingüístico proporcionado por LORE. Una de las contribuciones más notables de nuestros modelos tiene que ver con la granularidad semántica de los tipos de localizaciones extraídas, desde entidades geopolíticas (e.g. pueblos, ciudades, regiones, países, etc.) y accidentes geográficos (e.g. montañas, ríos, lagos, colinas, valles, etc.) hasta puntos de interés (e.g. plazas, catedrales, universidades, residencias, restaurantes, museos, etc.) y vías de tráfico (e.g. calles, avenidas, carreteras, autovías, etc.). LORE supera a sistemas conocidos de dominio general de reconocimiento de entidades nombradas que se utilizan con frecuencia en sistemas de evaluación (Schmitt et al., 2019) como Stanford NER, spaCy, NLTK, OpenNLP, Google Natural Language Cloud y Stanza, alcanzando unas puntuaciones récord de evaluación en términos de precisión y cobertura, a la vez que muestra un rendimiento similar cuando se aplica a otros corpora. nLORE llega a superar LORE por un margen estrecho y confirma la utilidad de la implementación de características lingüísticas en la Inteligencia Artificial (Linzen, 2019). En este sentido, nuestros modelos proporcionan, no solo un salto cuantitativo respecto a la competencia en términos de rendimiento y precisión, sino también un salto cualitativo dada la diversidad y granularidad semántica de las referencias locativas que se pueden extraer de los tweets.es_ES
dc.description.sponsorshipTesis Univ. Granada.es_ES
dc.format.mimetypeapplication/pdfen_US
dc.language.isoenges_ES
dc.publisherUniversidad de Granadaes_ES
dc.rightsAtribución-NoComercial-SinDerivadas 3.0 España*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/*
dc.subjectLocation detectiones_ES
dc.subjectLocation extractiones_ES
dc.subjectGeolocationes_ES
dc.subjectNamed-entity recognitiones_ES
dc.subjectNatural language processinges_ES
dc.subjectDeep learninges_ES
dc.subjectEmergencieses_ES
dc.subjectDisasters es_ES
dc.subjectDetección de localizacioneses_ES
dc.subjectExtracción de localizacioneses_ES
dc.subjectGeolocalizaciónes_ES
dc.subjectReconocimiento de entidades nombradases_ES
dc.subjectProcesamiento del lenguaje naturales_ES
dc.subjectDeep learninges_ES
dc.subjectEmergenciases_ES
dc.subjectDesastreses_ES
dc.titleA linguistically-aware computational approach to microtext location detectiones_ES
dc.typeinfo:eu-repo/semantics/doctoralThesises_ES
europeana.typeTEXTen_US
europeana.dataProviderUniversidad de Granada. España.es_ES
europeana.rightshttp://creativecommons.org/licenses/by-nc-nd/3.0/en_US
dc.rights.accessRightsinfo:eu-repo/semantics/openAccesses_ES
dc.type.hasVersioninfo:eu-repo/semantics/publishedVersiones_ES


Files in this item

[PDF]

This item appears in the following Collection(s)

  • Tesis
    Tesis leídas en la Universidad de Granada

Show simple item record

Atribución-NoComercial-SinDerivadas 3.0 España
Except where otherwise noted, this item's license is described as Atribución-NoComercial-SinDerivadas 3.0 España