New approaches to improve the performance of machine learning and deep learning algorithms in solving real-world problems: companies financial failure forecasting
Metadatos
Afficher la notice complèteAuteur
Aljawazneh, Huthaifa RiyadEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y de la ComunicaciónMateria
Machine learning Deep learning Companies Finances
Date
2022Fecha lectura
2021-12-20Referencia bibliográfica
Huthaifa Riyad, Aljawazneh. New approaches to improve the performance of machine learning and deep learning algorithms in solving real -world problems: companies financial failure forecasting. Granada: Universidad de Granada, 2022. [http://hdl.handle.net/10481/72340]
Patrocinador
Tesis Univ. Granada.; Ministerio de Ciencia, Innovación y Universidades under Project RTI2018- 102002-A-I00; Ministerio de Economía y Competitividad under Projects TIN2017-85727-C4-2-P and PID2020- 115570GB-C22; Fondo Europeo de Desarrollo Regional (FEDER); Junta de Andalucía under Project B-TIC- 402-UGR18; Junta de Andalucía under Project P18-RT-4830Résumé
Companies’ financial failure prediction is one of the most crucial
real-world problems. This is because many companies
are interested in forecasting their incoming financial status in order
to adapt to the current financial and business environment to
avoid bankruptcy. In addition, commercial banks are interested in
gaining this prior information about the future financial status of
companies as a requirement that supports the decision of providing
loans to companies in some cases, and even the investors are
interested in this information. On this basis, the main objective
of this doctoral thesis is to improve the performance of Machine
learning and Deep Learning algorithms in predicting companies’
financial failure. The main challenge of predicting the companies’
financial failure using these kinds of algorithms is the scarcity
of companies’ bankruptcy occurrence in the real-world, making
the real companies’ financial datasets extremely imbalanced. In
other words, the inconsistent distribution of the financial data
dramatically affects the overall performance and reliability of the
classifiers. To carry out this main objective, new simple resampling
approaches have been proposed in this study to solve the
data balancing problem. These simple approaches aim mainly
to avoid the overfitting that arises as a consequence of the ‘simple’
replication of the minority instances (bankrupt companies
records) in order to balance the dataset, and also to prevent losing
some important information that happens as a consequence of
eliminating some majority instances (solvent companies records)
to solve the data balancing problem. Accordingly, the simple balancing
approaches are based mainly on splitting the imbalanced
dataset into several balanced subsets processed by the classifiers
individually. Afterwards, a comprehensive analysis of the impact
of using several different balancing methods on the performance
of classical classification algorithms in predicting companies’ financial
failure has been done. The selected balancing methods
are analyzed bearing in mind the existing types in the literature.
This analysis aims to conclude the most appropriate balancing
technique to solve the financial data inconsistency distribution.
Furthermore, in order to improve the performance of several classical
classifiers in predicting companies’ bankruptcy, cascading
technique have been used to create hybrid classifiers, showing
better performance than using stand-alone ones. A further step
in this doctoral thesis is to customize Deep Learning algorithms
by identifying a specific number of hidden layers and hyperparameter
values to maintain the highest performance in predicting
bankrupt and solvent companies. Finally, a novel data balancing
technique baptized as Distance Based Border Instances SMOTE
(DBBI-SMOTE) has been developed to solve the inconsistent distribution
of the financial data. This novel method avoids some
drawbacks in the existing balancing methods procedures, such
as generating the new minority instances in the majority region.
In addition, it outperforms many other balancing methods addressed
in the literature. Thus, the novel approach is considered
as a preprocessing stage of several standard and ensemble classifiers,
yielding significant improvements in their reliability and
overall performance. La predicción de la quiebra de empresas se considera como un
problema crítico en el mundo real, ya que muchas empresas
necesitan tener previsiones de su situación financiera futura para
adaptarse al entorno financiero y empresarial del momento y
evitar la quiebra. Tanto los bancos como los inversores están interesados
en disponer de información sobre el estado financiero
futuro de las empresas, como requisito para apoyar la decisión de
conceder préstamos a las empresas en algunos casos. Así pues, el
objetivo principal de esta tesis doctoral es mejorar el rendimiento
de diversos algoritmos de Machine Learning y Deep Learning
ante el problema de la predicción de la quiebra de empresas. El
principal reto es la escasez de patrones de quiebra de empresas
en el mundo real, lo que hace que los conjuntos de datos
financieros de las empresas reales estén extremadamente desbalanceados.
En otras palabras, hay una distribución inconsistente
de los datos financieros en los conjuntos de datos que afecta al
rendimiento general y a la fiabilidad de los clasificadores. Para
solventar este problema se han propuesto nuevos enfoques sencillos
de ‘remuestreo’ de datos para resolver el problema del
balanceo de los conjuntos de datos. Los métodos propuestos
tienen como objetivo principal evitar el sobreajuste que surge
como consecuencia de replicar las instancias minoritarias (registros
de empresas en quiebra) para equilibrar el conjunto de
datos, lo cual se hace en algunos métodos simples, y también
para evitar la pérdida de información importante que se produce
como consecuencia de la eliminación de algunas instancias de la
clase mayoritaria (registros de empresas solventes), que se realiza
en otros métodos, para hacer frente al problema del desbalanceo
de los datos. Así, los enfoques simples de equilibrado propuestos
se basan principalmente en dividir el conjunto de datos desequilibrado
en varios subconjuntos equilibrados que son procesados
por los clasificadores de forma individual. Junto con esto, se ha
realizado un análisis exhaustivo del impacto que tiene el uso de varios métodos de balanceado de datos en el rendimiento
de diferentes algoritmos de clasificación clásicos para la predicción
de la quiebra de empresas. Este análisis tiene como objetivo
obtener la técnica de balanceado más adecuada para resolver
el problema de distribución desbalanceada de datos financieros.
Además, con el fin de mejorar el rendimiento de los clasificadores
clásicos en la predicción de la quiebra de empresas, se han utilizado
técnicas en cascada para crear clasificadores híbridos que
ofrezcan un mejor rendimiento que el obtenido utilizando los
clasificadores independientes más sencillos. Una aportación adicional
de esta tesis doctoral es el estudio de la configuración
óptima de diferentes algoritmos de Deep Learning, estableciendo
un número adecuado de capas ocultas, así como de los valores de
los hiperparámetros de dichos métodos, a fin de para obtener el
máximo rendimiento en la predicción de la quiebra de empresas.
Finalmente, se ha desarrollado una nueva técnica de balanceo
de datos denominada Distance Based Border Instances SMOTE
(DBBI-SMOTE) para resolver el desbalanceo de datos financieros.
Este nuevo método evita algunos problemas, de los métodos
de balanceo de datos existentes actualmente, como por ejemplo
generar nuevas instancias minoritarias en la región mayoritaria.
Asimismo, el nuevo método supera en rendimiento a muchos
otros mencionados en la literatura. La aplicación de este nuevo
método es una etapa de preprocesamiento que se aplica a varios
clasificadores estándar y agrupados, obteniendo así una mejora
claramente significativa en su fiabilidad y rendimiento general.