@misc{10481/72340, year = {2022}, url = {http://hdl.handle.net/10481/72340}, abstract = {Companies’ financial failure prediction is one of the most crucial real-world problems. This is because many companies are interested in forecasting their incoming financial status in order to adapt to the current financial and business environment to avoid bankruptcy. In addition, commercial banks are interested in gaining this prior information about the future financial status of companies as a requirement that supports the decision of providing loans to companies in some cases, and even the investors are interested in this information. On this basis, the main objective of this doctoral thesis is to improve the performance of Machine learning and Deep Learning algorithms in predicting companies’ financial failure. The main challenge of predicting the companies’ financial failure using these kinds of algorithms is the scarcity of companies’ bankruptcy occurrence in the real-world, making the real companies’ financial datasets extremely imbalanced. In other words, the inconsistent distribution of the financial data dramatically affects the overall performance and reliability of the classifiers. To carry out this main objective, new simple resampling approaches have been proposed in this study to solve the data balancing problem. These simple approaches aim mainly to avoid the overfitting that arises as a consequence of the ‘simple’ replication of the minority instances (bankrupt companies records) in order to balance the dataset, and also to prevent losing some important information that happens as a consequence of eliminating some majority instances (solvent companies records) to solve the data balancing problem. Accordingly, the simple balancing approaches are based mainly on splitting the imbalanced dataset into several balanced subsets processed by the classifiers individually. Afterwards, a comprehensive analysis of the impact of using several different balancing methods on the performance of classical classification algorithms in predicting companies’ financial failure has been done. The selected balancing methods are analyzed bearing in mind the existing types in the literature. This analysis aims to conclude the most appropriate balancing technique to solve the financial data inconsistency distribution. Furthermore, in order to improve the performance of several classical classifiers in predicting companies’ bankruptcy, cascading technique have been used to create hybrid classifiers, showing better performance than using stand-alone ones. A further step in this doctoral thesis is to customize Deep Learning algorithms by identifying a specific number of hidden layers and hyperparameter values to maintain the highest performance in predicting bankrupt and solvent companies. Finally, a novel data balancing technique baptized as Distance Based Border Instances SMOTE (DBBI-SMOTE) has been developed to solve the inconsistent distribution of the financial data. This novel method avoids some drawbacks in the existing balancing methods procedures, such as generating the new minority instances in the majority region. In addition, it outperforms many other balancing methods addressed in the literature. Thus, the novel approach is considered as a preprocessing stage of several standard and ensemble classifiers, yielding significant improvements in their reliability and overall performance.}, abstract = {La predicción de la quiebra de empresas se considera como un problema crítico en el mundo real, ya que muchas empresas necesitan tener previsiones de su situación financiera futura para adaptarse al entorno financiero y empresarial del momento y evitar la quiebra. Tanto los bancos como los inversores están interesados en disponer de información sobre el estado financiero futuro de las empresas, como requisito para apoyar la decisión de conceder préstamos a las empresas en algunos casos. Así pues, el objetivo principal de esta tesis doctoral es mejorar el rendimiento de diversos algoritmos de Machine Learning y Deep Learning ante el problema de la predicción de la quiebra de empresas. El principal reto es la escasez de patrones de quiebra de empresas en el mundo real, lo que hace que los conjuntos de datos financieros de las empresas reales estén extremadamente desbalanceados. En otras palabras, hay una distribución inconsistente de los datos financieros en los conjuntos de datos que afecta al rendimiento general y a la fiabilidad de los clasificadores. Para solventar este problema se han propuesto nuevos enfoques sencillos de ‘remuestreo’ de datos para resolver el problema del balanceo de los conjuntos de datos. Los métodos propuestos tienen como objetivo principal evitar el sobreajuste que surge como consecuencia de replicar las instancias minoritarias (registros de empresas en quiebra) para equilibrar el conjunto de datos, lo cual se hace en algunos métodos simples, y también para evitar la pérdida de información importante que se produce como consecuencia de la eliminación de algunas instancias de la clase mayoritaria (registros de empresas solventes), que se realiza en otros métodos, para hacer frente al problema del desbalanceo de los datos. Así, los enfoques simples de equilibrado propuestos se basan principalmente en dividir el conjunto de datos desequilibrado en varios subconjuntos equilibrados que son procesados por los clasificadores de forma individual. Junto con esto, se ha realizado un análisis exhaustivo del impacto que tiene el uso de varios métodos de balanceado de datos en el rendimiento de diferentes algoritmos de clasificación clásicos para la predicción de la quiebra de empresas. Este análisis tiene como objetivo obtener la técnica de balanceado más adecuada para resolver el problema de distribución desbalanceada de datos financieros. Además, con el fin de mejorar el rendimiento de los clasificadores clásicos en la predicción de la quiebra de empresas, se han utilizado técnicas en cascada para crear clasificadores híbridos que ofrezcan un mejor rendimiento que el obtenido utilizando los clasificadores independientes más sencillos. Una aportación adicional de esta tesis doctoral es el estudio de la configuración óptima de diferentes algoritmos de Deep Learning, estableciendo un número adecuado de capas ocultas, así como de los valores de los hiperparámetros de dichos métodos, a fin de para obtener el máximo rendimiento en la predicción de la quiebra de empresas. Finalmente, se ha desarrollado una nueva técnica de balanceo de datos denominada Distance Based Border Instances SMOTE (DBBI-SMOTE) para resolver el desbalanceo de datos financieros. Este nuevo método evita algunos problemas, de los métodos de balanceo de datos existentes actualmente, como por ejemplo generar nuevas instancias minoritarias en la región mayoritaria. Asimismo, el nuevo método supera en rendimiento a muchos otros mencionados en la literatura. La aplicación de este nuevo método es una etapa de preprocesamiento que se aplica a varios clasificadores estándar y agrupados, obteniendo así una mejora claramente significativa en su fiabilidad y rendimiento general.}, organization = {Tesis Univ. Granada.}, organization = {Ministerio de Ciencia, Innovación y Universidades under Project RTI2018- 102002-A-I00}, organization = {Ministerio de Economía y Competitividad under Projects TIN2017-85727-C4-2-P and PID2020- 115570GB-C22}, organization = {Fondo Europeo de Desarrollo Regional (FEDER)}, organization = {Junta de Andalucía under Project B-TIC- 402-UGR18}, organization = {Junta de Andalucía under Project P18-RT-4830}, publisher = {Universidad de Granada}, keywords = {Machine learning}, keywords = {Deep learning}, keywords = {Companies}, keywords = {Finances}, title = {New approaches to improve the performance of machine learning and deep learning algorithms in solving real-world problems: companies financial failure forecasting}, author = {Aljawazneh, Huthaifa Riyad}, }