Solving real-world finance problems by means of data mining algorithms us ing high- performance computing platforms
Metadatos
Mostrar el registro completo del ítemAutor
Safi, Salah Al-Deen TahaEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la ComunicaciónFecha
2023Fecha lectura
2023-05-22Referencia bibliográfica
Taha Safi, Salah Al-Deen. Solving real-world finance problems by means of data mining algorithms us ing high- performance computing platforms. Granada: Universidad de Granada, 2023. [https://hdl.handle.net/10481/82206]
Patrocinador
Tesis Univ. Granada.Resumen
Without question, we are now living in the era of data. It may
surprise some people to learn that humans have been utilizing
data to inform decisions since the dawn of time. Every day, we use data
to judge seemingly uncomplicated things like what to dress depending
on the current weather and how to go to work based on traffic reports.
As a result of ongoing technological advancements, a vast quantity
of data is currently being generated, gathered, stored, and analyzed.
Furthermore, technology has also advanced over the years to provide us
with the means and tools we need to collect, store, display, comprehend,
and apply data to develop valuable forecasts that will aid in resolving
real-world problems. Additionally, machine Learning, a field that has
grown so fast recently, relies on computers to analyze and understand
the data given to them to predict results.
The financial distress forecast problem is essential in the financial sector
because it has consequences on banks, companies, and organizations
and is the primary subject of this thesis. Poor financial distress projections
may result in significant financial losses. Thus, major attempts
have been made to create prediction models to aid in improving such
activities by assisting decision-makers in foreseeing incidents prior to
they happen and preventing the company from going bankrupt.
From a machine learning perspective, financial distress forecasting is
viewed as a binary classification issue, where the data is usually highly
imbalanced, meaning that the vast majority of companies are solvent,
while only a tiny number are insolvent, making it a challenging task.
As a result, various algorithms and techniques have been created in
the past years to classify imbalanced datasets. Three main techniques
for learning from imbalanced data may be recognized: data-level techniques,
also known as external methods that modify the distributions
of the instances and maybe exclude problematic samples. Techniques
that modify existing learning algorithms, sometimes called internal
techniques, to mine data with skewed distributions and lessen their bias
towards majority instances. Furthermore, hybrid strategies combine
the advantages of the two earlier techniques.
In this thesis, we tackled external methods and internal methods separately.
In the case of external methods: We attempt to improve the
financial distress prediction models’ ability to forecast failure by addressing
the uneven distribution issue. We specifically concentrate on
implementing and contrasting eleven advanced resampling techniques
to preprocess the data to lower their imbalance ratio. Following the data balance, we create the decision trees to forecast financial distress
using the C4.5 classifier. For this study, a real dataset that was gathered
from the Spanish market was used. Due to the dataset’s extremely
imbalanced distribution, where insolvent cases make up only 2% of
the entire sample, it is thought to be exceedingly tricky. We observed a
substantial improvement regarding the evaluated evaluation measurements,
hence a decrease in the misclassification of positive occurrences,
which is thought to be the most significant risk factor.
In contrast, regarding internal methods, artificial neural networks based
on metaheuristic optimization have shown impressive results in various
applications, including classification problems. More thought has yet
to be devoted to using a metaheuristic optimization-based artificial
neural network with a cost-sensitive fitness function to address the
challenge of predicting a financial crisis. This thesis proposes a novel
ENS_PSONNcost and ENS_CSONNcost; metaheuristic optimizationbased
artificial neural networks that utilize the particle swarm optimizer
and competitive swarm optimizer with a cost-sensitive fitness function,
using five of these as the foundation for a majority-voting ensemble
learning approach. In order to prevent dataset bias, three extremely
imbalanced datasets of Polish, Taiwanese, and Spanish enterprises were
considered. The g-mean (geometric mean of sensitivity and specificity)
measure and the f1-score (harmonic mean of precision and sensitivity)
measure demonstrated considerable improvement in the findings while
retaining sufficient accuracy. Actualmente vivimos en la era de los datos. Puede que a algunos les
sorprenda saber que el ser humano lleva utilizando datos para tomar
decisiones desde la noche de los tiempos. Todos los días utilizamos
datos para juzgar cosas aparentemente sencillas, como qué ropa elegir
en función del tiempo que hace o cómo ir al trabajo en función del
tráfico.
Gracias a los continuos avances tecnológicos, actualmente se genera,
recopila, almacena y analiza una enorme cantidad de datos. Además,
la tecnología también ha avanzado a lo largo de los años para proporcionarnos
los medios y las herramientas que necesitamos para recopilar,
almacenar, mostrar, comprender y aplicar datos para desarrollar predicciones
que ayuden a resolver problemas del mundo real. Además, el
aprendizaje automático, un campo que ha crecido tan rápidament e en
los últimos tiempos, se basa en el análisis de datos computacionalmente
para predecir resultados.
El problema de la predicción de la quiebra financiera es esencial en
el sector empresarial porque tiene consecuencias en bancos, empresas
y organizaciones, siendo el tema principal de esta tesis. Una mala
previsión de las dificultades financieras puede acarrear importantes
pérdidas económicas. Por ello, se han hecho grandes intentos de crear
modelos de predicción que ayuden a mejorar los resultados, ayudando
a los responsables de la toma de decisiones a prever incidentes antes
de que ocurran y evitando que la empresa entre en quiebra.
Desde el punto de vista del aprendizaje automático, la predicción de
dificultades financieras se considera un problema de clasificación binaria,
en el que el conjunto de datos suele estar muy desequilibrado,
lo que significa que la gran mayoría de las empresas son solventes,
mientras que sólo un número ínfimo son insolventes. Esto lo convierte
en un problema muy difícil. Por ello, en las últimas décadas se han
creado diversas técnicas y algoritmos para clasificar conjuntos de datos
desbalanceados. Se pueden reconocer tres técnicas principales para
el aprendizaje a partir de datos desbalanceados: Técnicas a nivel de
datos, también conocidas como métodos externos que modifican las distribuciones
de las instancias y pueden excluir muestras problemáticas;
técnicas que modifican los algoritmos de aprendizaje existentes, a veces
denominadas técnicas internas, para extraer datos con distribuciones
sesgadas y disminuir su sesgo hacia las instancias mayoritarias; y por
último, estrategias híbridas combinan las ventajas de las dos técnicas
anteriores.
En esta tesis abordamos los métodos externos y los métodos internos
por separado. En el caso de los métodos externos se busca mejorar la
capacidad de los modelos de predicción de quiebra empresarial para
predecir la quiebra abordando el problema de la distribución desigual.
En concreto, nos centramos en aplicar y contrastar once técnicas avanzadas
de remuestreo para preprocesar los datos con el fin de reducir
su ratio de desbalanceo. Tras el balanceo de los datos, creamos los
árboles de decisión para predecir la quiebra empresarial utilizando
el clasificador C4.5. Para este estudio se utilizó un conjunto de datos
reales procedentes del mercado español. Debido a la distribución extremadamente
desbalanceada del conjunto de datos, en el que los casos
insolventes representan sólo el 2% de toda la muestra, se considera que
es un problema muy complicado. De los resultados obtenidos observamos
una mejora sustancial con respecto a las medidas de evaluación,
que significa una disminución del error en clasificación de ocurrencias
positivas, lo que supone el factor de riesgo más significativo.
Por otra parte, en el caso de los métodos internos, las redes neuronales
artificiales basadas en la optimización metaheurística han mostrado
notables resultados en diversas aplicaciones, incluidos los problemas
de clasificación. Aún no se ha reflexionado más sobre el empleo de
una función de adecuación sensible a los costes en las redes neuronales
artificiales basadas en la optimización metaheurística para abordar el
reto de predecir la quiebra empresarial.
En esta tesis se proponen dos nuevos modelos predictivos complejos,
llamados ENS_PSONNcost y ENS_CSONNcost. Específicamente se trata
de redes neuronales artificiales basadas en la optimización metaheurística
que utilizan el optimizador de enjambre de partículas (particle
swarm optimizer, PSO) y el optimizador de enjambre competitivo
(competitive swarm optimizer, CSO) con una función de adecuación
sensible al coste. Cada conjunto de predictores (”ensemble”) está compuesto
por cinco modelos en un paradigma de aprendizaje de votación
mayoritaria.
Para evitar sesgos en los conjuntos de datos se consideraron tres conjuntos
de datos extremadamente desbalanceados de empresas españolas,
taiwanesas y polacas. Usando las medidas g-mean (media geométrica
de la sensibilidad y la especificidad) y f1-score (media armónica de la
precisión y la sensibilidad) se ha conseguido una mejora considerable
en los resultados obtenidos