Interpretable and Effortless Techniques for Social Network Analysis
Metadatos
Mostrar el registro completo del ítemEditorial
Universidad de Granada
Director
Castro Peña, Juan LuisDepartamento
Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la ComunicaciónFecha
2023Fecha lectura
2022-12-21Referencia bibliográfica
Aparicio, Manuel Francisco. Interpretable and Effortless Techniques for Social Network Analysis. Granada: Universidad de Granada, 2023. [https://hdl.handle.net/10481/79151]
Patrocinador
Tesis Univ. Granada.; Spanish Ministry of Economy and Competitiveness (MINECO), project FFI2016-79748-R European Social Fund (ESF); FPI 2017Resumen
Social Networking Sites (SNS) are the most important way of communication
nowadays. They have changed how we interact with our friends and family,
and even how companies target their clients, conduct market analysis and
make business decisions. The amount of data that is being generated every
day is virtually unlimited, and it can be used to conduct social media analyses
and/or to train Machine Learning (ML) models. However, many handicaps
need to be alleviated. SNS data is, typically, unstructured and written in
natural language, and it presents misspelled words, contractions, emojis, and
new semantic units that sometimes are a heavy burden for learning algorithms.
A large dataset and multiple preprocessing steps are essential for almost any
ML application in SNS.
Unfortunately, there is an inherent cost to gather and build labelled databases
(human effort), and it constitutes a major drawback for low- to mid-budget
ventures. Additionally, many applications may result in social consequences,
thus they need to be audited. Both objectives fall into the interest of a multidisciplinary
project called ª Nutcracker, that aims to detect, track, monitor an
analyse radical discourse online. This dissertation is part of the project, and we
propose in it effortless and interpretable mechanisms to tackle aforementioned
disadvantages, using social network’s mechanics as leverage. First, we present
a reasoning mechanism based on similarity between users, that will allow us
to deduce properties of unknown users, hence reducing the effort required to
build databases. Then, we present a new kind of feature extraction and selection
method whose purpose is to reduce model complexity, thus enhancing
model comprehensibility and transparency. Finally, we study the peculiarities
of aggregated analysis and, particularly, how well can class prevalence count be
estimated when working with SNS data.
Our results show that we are able to build large databases in Twitter with a
fraction of the effort; that we can train interpretable models as accurate as the
baselines but one order of magnitude less complex; and that quantification is
a novel approach that has much to offer to social network analysis, since it
is able to adjust classification bias. We developed a proof-of-concept tool for
effortless labelling and continuous user tracking, and we tested the platform by
producing four high-quality weak-labelled datasets. The proposed techniques,
methodologies and tools have been proven useful for disciplines such as
computational linguistics, political science and cybersecurity. They are being used by members of our team and they have raised the attention of Spanish
Civil Guard. Applications include building (and working with) supervised
databases (e.g., social network analysis, market analysis, customer service,
user profiling...); reaching full transparency in automatic decision-making
algorithms (e.g., preemptive account closing, illegal activity tracking, hiring
policies...); measuring overall user opinion or sentiment (e.g., during an
event like a political debate); studying mental illnesses, detection of epidemic
outbreaks, targeting customers, profiling brand ambassadors, or determining
the impact of organised communities, among many others. Las redes sociales son el medio de comunicación más importante hoy en día.
Han cambiado la manera que tenemos de interactuar con nuestra familia y
amigos, e incluso la manera que tienen las empresas de realizar estudios de
mercado, tomar decisiones de negocio o dirigirse a sus clientes. La cantidad
de datos que están siendo generados cada día puede considerarse ilimitada,
y puede usarse para realizar estudios sociales o para entrenar modelos de
aprendizaje computacional (ML). Sin embargo, existen dificultades con las
que lidiar. La información recogida de redes sociales es mayormente desestructurada
y escrita en lenguaje natural, y puede presentar faltas de ortografía,
contracciones, emojis, y unidades semánticas nuevas, que pueden resultar
una carga para los algoritmos de aprendizaje. Una buena base de datos y
varios pasos de preprocesamiento se vuelven requisitos indispensables para
casi cualquier aplicación de ML en redes sociales.
Por desgracia, existen costes nada despreciables para producir dichas bases de
datos (esfuerzo humano), y constituye una de las mayores desventajas para
empresas de bajo y medio presupuesto. Además, muchas de estas aplicaciones
pueden tener repercusiones sociales, por lo que necesitan ser auditadas. Ambos
objetivos caen dentro del ámbito de un proyecto multidisciplinar llamado
ª Nutcracker, cuyo objetivo es detectar, rastrear, monitorizar y analizar el discurso
radical en Internet. Esta tesis es parte del proyecto, y en ella proponemos
diferentes mecanismos interpretables y de esfuerzo reducido para abordar las
desventajas existentes, utilizando en nuestro beneficio las propias mecánicas
de las redes sociales. Primeramente, presentamos un mecanismo deductivo
de razonamiento basado en similitud entre usuarios, que permiten inferir propiedades de usuarios desconocidos y, por consiguiente, reducir el esfuerzo
necesario para producir la base de datos. Posteriormente, presentamos un
nuevo tipo de característica cuya finalidad es reducir la complejidad de los
modelos una vez entrenados, consiguiendo así una mayor comprensibilidad
y transparencia. Finalmente, estudiamos las peculiaridades del análisis agregado
y, en especial, cómo de buenos son lo métodos actuales estimando la
prevalencia de las clases en muestras de datos de redes sociales.
Nuestros resultados muestran que somos capaces de construir grandes bases
de datos de Twitter con una fracción del esfuerzo normal; que podemos entrenar
modelos interpretables tan precisos como siempre pero reduciendo su
complejidad en un orden de magnitud; y que la cuantificación es una disciplina
con mucho que ofrecer al análisis de redes sociales, ya que es capaz de ajustar
el sesgo de clasificación. Hemos desarrollado una herramienta como prueba
de concepto que es capaz de reducir el esfuerzo de etiquetado de datasets y de
la monitorización continua de usuarios relevantes, y la hemos puesto a prueba
mediante la producción de cuatro bases de datos. Las técnicas, metodologías y
herramientas propuestas han demostrado ser efectivas en diferentes ámbitos,
como las ciencias políticas, la lingüística y la ciberseguridad. Están siendo
usadas por expertos de nuestro proyecto y han llamado la atención de la Guardia
Civil por su potencial. Las aplicaciones incluyen la producción de bases
de datos supervisadas (por ejemplo, para análisis de redes sociales, estudios
de mercado, atención al cliente, caracterización de perfiles de usuarios...); la
aplicación de algoritmos de toma de decisiones completamente interpretables
(por ejemplo, para el cierre preventivo de cuentas, rastreo de actividades
ilegales, políticas de contratación...); la medición de la opinión general de
una población (por ejemplo, durante un evento, como un debate político); el
estudio de enfermedades mentales, la detección de epidemias, para campañas
de atracción de clientes, o para determinar el impacto de comunidades
organizadas, entre otras muchas.