Algoritmos de inteligencia computacional para abordar problemas de detección de anomalías en entornos Big Data
Metadata
Show full item recordAuthor
Carrasco Castillo, JacintoEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la ComunicaciónDate
2023Fecha lectura
2023-03-10Referencia bibliográfica
Carrasco Castillo, Jacinto. Algoritmos de inteligencia computacional para abordar problemas de detección de anomalías en entornos Big Data. Granada: Universidad de Granada, 2023. [https://hdl.handle.net/10481/80705]
Sponsorship
Tesis Univ. Granada.; FPU16/04188 Ministerio de UniversidadesAbstract
The proliferation of the use of computer systems in all kinds of fields, whether
medical, industrial, economic or scientific, has brought with it the generation of everincreasing
volumes of data. This has led to the need to create new technologies that
allow the storage and analysis of this data, as well as generating new circumstances
in which the aim is to extract knowledge from it. One of the usual scenarios is that of
anomaly detection, where the interest lies in the identification of a minority class of
data, either because it may pose a threat to the system under study, as in the case
of fraud detection or predictive maintenance of industrial systems, or in medical
environments, where there are few samples of data from patients with a disease
compared to the common healthy population and the aim is to detect that disease.
The fact that the focus is on the minority class differentiates anomaly detection from
noise detection, defined as an effect on the data that we want to mitigate in the data
pre-processing phase but whose cause is not relevant to the investigation.
Therefore, we can identify different scenarios within the scope of anomaly detection
depending on the availability of information at the time of learning the
algorithm: supervised scenarios, assimilable to unbalanced classification problems;
semi-supervised or novelty detection scenarios, where a normality model is generated
based on the data of the majority class, the only ones available in the training phase;
and unsupervised scenarios, where no information is available on the class of the
instances. These differences result in the existence of different evaluation methods
and in the need to resort to additional mechanisms for the extraction of interpretable
knowledge in scenarios where the representation learned by the model is insufficient
for the understanding of the problem.
In this thesis we focus on the study of the anomaly detection problem for unsupervised
scenarios, both for time series problems and for static data. This study starts
from the demarcation of the problem within the anomaly detection domain to move
on to the design of a distributed algorithm for anomaly detection valid for both static
and time series data focused on obtaining explanations to help decision making and
understanding of the studied dataset. Finally, an evaluation model for unsupervised
time series anomaly detection scenarios is proposed.
Specifically, the proposals made in the framework of the thesis are: A distributed anomaly detection model focused on explainability. For this
model we rely on the HBOS algorithm, which performs univariate histograms
for anomaly score assignment, and extend it to search for anomalies in higher
dimensionality subspaces. The use of this algorithm as a basis is justified by
the possibility of constructing a knowledge representation that allows in later
phases to reconstruct histograms of higher dimensionality subspaces by taking
advantage of certain calculations. Furthermore, the knowledge representation
allows us to include a proposal for the construction of rules to describe the
reasons for the categorisation of specific instances through counterfactuals,
rules that justify why an instance belongs to one class and not to another.
In the experimentation associated with this proposal, it can be seen that the
results are not comparable to the state of the art in anomaly detection, the lower
performance being the counterpart to the simplicity of the model that allows
the rules to be obtained.
A model for evaluating anomaly detection algorithms for time series. In
the field of anomaly detection, there are multiple evaluation schemes. In
particular, it is common to find in time series scenarios the application of
anomaly score prediction models for time instances while identifying events of
interest that occur subsequent to the anomalous predictions. However, these
methods pose problems such as the need to set certain parameters for the
evaluation such as the definition of a window prior to the event of interest
or weights to reward fast detection or the multiplication of the effect of interclass
imbalance. Therefore, we propose a scoring mechanism based on the
definition of multiple windows prior to the events of interest and the use of
a generalised ROC curve for the different windows such that the aggregation
of the instances by a function is the anomaly score for that interval. This
proposal includes an implementation for classical environments and another
for distributed environments and a comparison with a proposed evaluation
measure for anomaly detection assimilated by its work with intervals, where
we show not only the usefulness of our measure for evaluation in the described
scenarios but also the computational efficiency of our measure versus this
alternative.
The proposals made provide solutions to specific problems in anomaly detection
research, such as the lack of models capable of working in distributed environments
and offering explanations as to why an instance is classified as anomalous or normal, and the dissociation of certain evaluation systems that consider specific instances for
the evaluation of events that occur over a period of time. La proliferación del uso de sistemas informáticos en todo tipo de ámbitos, tanto
médico, industrial, económico y científico ha traído consigo la generación de volúmenes
cada vez mayores de datos. Esto ha provocado la necesidad de generar
nuevas tecnologías que permitan el almacenamiento y análisis de dichos datos, a
la par que generar nuevas circunstancias donde se pretende extraer conocimiento
de los mismos. Uno de los escenarios habituales es el de la detección de anomalías,
donde el interés reside en la identificación de una clase minoritaria de los datos, bien
porque pueda suponer una amenaza al sistema estudiado, como en el caso de la
detección de fraude o en el mantenimiento predictivo de sistemas industriales, o bien
en entornos médicos, donde se disponen de pocas muestras de datos de pacientes
con una enfermedad frente al común de la población sana y se pretenda detectar
dicha enfermedad. El hecho de que el foco caiga sobre la clase minoritaria diferencia
la detección de anomalías de la detección de ruido, definido como un efecto sobre los
datos que querremos mitigar en la fase de preprocesamiento de los datos pero cuya
causa no es relevante para la investigación.
Por tanto, podemos identificar dentro del ámbito de la detección de anomalías
distintos escenarios en función de la disponibilidad de información en el momento
del aprendizaje del algoritmo: escenarios supervisados, asimilables a problemas de
clasificación desbalanceada; escenarios semisupervisados o de detección de novedad,
donde se genera un modelo de normalidad en base a los datos de la clase mayoritaria,
los únicos disponibles en la fase de entrenamiento; y escenarios no supervisados,
donde no se dispone de información sobre la clase de las instancias. Estas diferencias
derivan en la existencia de distintos métodos de evaluación y en la necesidad de
recurrir a mecanismos adicionales para la extracción de conocimiento interpretable
en escenarios donde la representación aprendida por el modelo sea insuficiente para
la comprensión del problema.
En esta tesis nos centramos en el estudio del problema de detección de anomalías
para escenarios no supervisados, tanto para problemas de series temporales como
para datos estáticos. Este estudio parte de la demarcación del problema dentro del
ámbito de la detección de anomalías para pasar al diseño de un algoritmo distribuido
para la detección de anomalías válido tanto para datos estáticos como para series temporales enfocado en la obtención de explicaciones para ayudar a la toma de
decisiones y la comprensión del conjunto de datos estudiado. Finalmente, se propone
un modelo de evaluación para escenarios no supervisados de detección de anomalías
en series temporales.
En concreto, las propuestas realizadas en el marco de la tesis son:
Un modelo distribuido de detección de anomalías enfocado en la explicabilidad.
Para este modelo nos basamos en el algoritmo HBOS, que realiza histogramas
univariantes para la asignación de puntuación de anomalía, y lo extendemos
para la búsqueda de anomalías en subespacios de mayor dimensionalidad.
El uso de este algoritmo como base viene justificado por la posibilidad de
construir una representación del conocimiento que permite en fases posteriores
reconstruir histogramas de subespacios de mayor dimensionalidad aprovechando
ciertos cálculos. Además, la representación del conocimiento nos permite
incluir una propuesta de construcción de reglas para describir los motivos
de la categorización de instancias concretas a través de contrahechos, unas
reglas que justifican por qué una instancia pertenece a una clase y no a la otra.
En la experimentación asociada a esta propuesta se ve cómo los resultados
no son asimilables al estado del arte en la detección de anomalías, siendo el
menor rendimiento la contrapartida a la simplicidad del modelo que permite la
obtención de reglas.
Un modelo de evaluación de algoritmos de detección de anomalías para series
temporales. En el ámbito de la detección de anomalías existen múltiples
esquemas para la evaluación. En concreto, es habitual encontrar en escenarios
de series temporales la aplicación de modelos de predicción de puntuación
de anomalía para instancias temporales mientras que identifiquen eventos de
interés que ocurren con posterioridad a las predicciones anómalas. Sin embargo,
estos métodos plantean problemas como la necesidad de establecer ciertos parámetros
para la evaluación como la definición de una ventana previa al evento
de interés o pesos para recompensar una detección rápida o la multiplicación
del efecto del desbalanceo entre clases. Por ello, proponemos un mecanismo
de puntuación basado en la definición de múltiples ventanas previas a los
eventos de interés y el uso de una curva ROC generalizada para las distintas
ventanas de manera que la agregación de las instancias mediante una función
es la puntuación de anomalía para ese intervalo. Esta propuesta incluye una
implementación para entornos clásicos y otro para entornos distribuidos y una comparación con una propuesta de medida de evaluación para detección de
anomalías asimilable por su trabajo con intervalos, donde mostramos no solo la
utilidad de nuestra medida para la evaluación en los escenarios descritos sino
también la eficiencia del cómputo de nuestra medida frente a esta alternativa.
Las propuestas realizadas vienen a aportar soluciones a problemas concretos de
la investigación en detección de anomalías como son la falta de modelos capaces de
trabajar en entornos distribuidos y que ofrezcan explicaciones sobre el motivo de la
clasificación de una instancia como anómala o normal, y la disociación de ciertos
sistemas de evaluación que consideran instancias puntuales para la valoración de
eventos que ocurren a lo largo de un período.