Análisis multidimensional de datos textuales en redes sociales
Metadata
Show full item recordAuthor
Gutiérrez Batista, KarelEditorial
Universidad de Granada
Departamento
Universidad de Granada.; Programa de Doctorado en: Tecnologías de la Información y la ComunicaciónMateria
Inteligencia artificial
Date
2019Fecha lectura
2018-03-16Referencia bibliográfica
Gutiérrez Batista, K. Análisis multidimensional de datos textuales en redes sociales: Universidad de Granada, 2019. [http://hdl.handle.net/10481/54952]
Sponsorship
Tesis Univ. Granada.Abstract
La popularidad y uso vertiginoso de las redes sociales en los últimos diez años, ha llevado a que decenas de millones de usuarios generen diariamente gigantescas cantidades de datos textuales. Este hecho ha agravado considerablemente la brecha que existe entre el crecimiento de los datos heterogéneos, semiestructurados y no estructurados, y las capacidades de procesamiento y análisis automático
de forma masiva de la mayoría de las tecnologías y sistemas actuales que permitirían
explotarlos adecuadamente. Se une a esto, el reto de la integración de dicha información textual
con datos tradicionales, y de esta forma permitir a los analistas obtener provecho de este nuevo recurso.
El procesamiento de datos masivos implica resumir y agrupar, y para ello las tecnologías Data
Warehousing (DW) y Online Analytical Processing (OLAP) se presentan como las más adecuadas. Estas tecnologías basan su éxito en las ventajas de la integración, el almacenamiento y operaciones del modelo multidimensional. De esta forma, permiten el desarrollo de agregaciones a través de dimensiones convencionales y no convencionales sobre datos heterogéneos. Para el caso concreto de los datos textuales, primeramente deben sufrir algún tipo de transformación para llevarlos a una forma más estructurada que facilite su análisis.
Para poder aplicar de forma satisfactoria las tecnologías DW y OLAP en el análisis de información textual provista por las redes sociales, resulta útil detectar previamente los principales contextos presentes en los textos, y para cada contexto, los tópicos más relevantes. Esto permitiría a los analistas segmentar los datos textuales por contextos, para luego tratarlos aprovechando las características y capacidades proporcionadas por el análisis multidimensional.
En esta tesis se han logrado combinar las tres temáticas de la siguiente manera:
Primero mediante el uso de técnicas de minería de datos, específicamente algoritmos de agrupamiento jerárquico y con el uso de recursos léxicos, se construye una dimensión contextual. Esta dimensión, presenta una estructura jerárquica donde cada nodo de la jerarquía representa un contexto al que están relacionados un conjuntos de documentos. Además para cada contexto y nivel de la dimensión, se cuenta con una jerarquía de consulta mediante la que se pueden realizar consultas por los principales tópicos presentes en este contexto. Todo el proceso anterior se realiza de forma automática.
Contando con esta información, podemos crear un modelo multidimensional que brinde soporte a la dimensión contextual obtenida. Este modelo, además de soportar un nuevo tipo de dimensión, implementa las operaciones OLAP clásicas
para este tipo de dimensiones, de tal forma que se puedan realizar análisis detallados mediante dicha dimensión relacionada con las dimensiones clásicas.
Por último se implementan un conjunto de funcionalidades, las cuales son incorporadas en la herramienta Wonder OLAP
Server 3.0, en adelante Wonder 3.0, mediante la cual se pondrá en práctica nuestra propuesta.
Este sistema nos va a permitir analizar los datos textuales de las redes sociales Twitter y Dreamcatchers junto con datos estructurados, demostrando la utilidad de la dimensión contextual y el buen funcionamiento de Wonder.