Solving real-world finance problems by means of data mining algorithms us ing high- performance computing platforms Safi, Salah Al-Deen Taha Castillo Valdivieso, Pedro Ángel Faris, Hossam Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la Comunicación Without question, we are now living in the era of data. It may surprise some people to learn that humans have been utilizing data to inform decisions since the dawn of time. Every day, we use data to judge seemingly uncomplicated things like what to dress depending on the current weather and how to go to work based on traffic reports. As a result of ongoing technological advancements, a vast quantity of data is currently being generated, gathered, stored, and analyzed. Furthermore, technology has also advanced over the years to provide us with the means and tools we need to collect, store, display, comprehend, and apply data to develop valuable forecasts that will aid in resolving real-world problems. Additionally, machine Learning, a field that has grown so fast recently, relies on computers to analyze and understand the data given to them to predict results. The financial distress forecast problem is essential in the financial sector because it has consequences on banks, companies, and organizations and is the primary subject of this thesis. Poor financial distress projections may result in significant financial losses. Thus, major attempts have been made to create prediction models to aid in improving such activities by assisting decision-makers in foreseeing incidents prior to they happen and preventing the company from going bankrupt. From a machine learning perspective, financial distress forecasting is viewed as a binary classification issue, where the data is usually highly imbalanced, meaning that the vast majority of companies are solvent, while only a tiny number are insolvent, making it a challenging task. As a result, various algorithms and techniques have been created in the past years to classify imbalanced datasets. Three main techniques for learning from imbalanced data may be recognized: data-level techniques, also known as external methods that modify the distributions of the instances and maybe exclude problematic samples. Techniques that modify existing learning algorithms, sometimes called internal techniques, to mine data with skewed distributions and lessen their bias towards majority instances. Furthermore, hybrid strategies combine the advantages of the two earlier techniques. In this thesis, we tackled external methods and internal methods separately. In the case of external methods: We attempt to improve the financial distress prediction models’ ability to forecast failure by addressing the uneven distribution issue. We specifically concentrate on implementing and contrasting eleven advanced resampling techniques to preprocess the data to lower their imbalance ratio. Following the data balance, we create the decision trees to forecast financial distress using the C4.5 classifier. For this study, a real dataset that was gathered from the Spanish market was used. Due to the dataset’s extremely imbalanced distribution, where insolvent cases make up only 2% of the entire sample, it is thought to be exceedingly tricky. We observed a substantial improvement regarding the evaluated evaluation measurements, hence a decrease in the misclassification of positive occurrences, which is thought to be the most significant risk factor. In contrast, regarding internal methods, artificial neural networks based on metaheuristic optimization have shown impressive results in various applications, including classification problems. More thought has yet to be devoted to using a metaheuristic optimization-based artificial neural network with a cost-sensitive fitness function to address the challenge of predicting a financial crisis. This thesis proposes a novel ENS_PSONNcost and ENS_CSONNcost; metaheuristic optimizationbased artificial neural networks that utilize the particle swarm optimizer and competitive swarm optimizer with a cost-sensitive fitness function, using five of these as the foundation for a majority-voting ensemble learning approach. In order to prevent dataset bias, three extremely imbalanced datasets of Polish, Taiwanese, and Spanish enterprises were considered. The g-mean (geometric mean of sensitivity and specificity) measure and the f1-score (harmonic mean of precision and sensitivity) measure demonstrated considerable improvement in the findings while retaining sufficient accuracy. Actualmente vivimos en la era de los datos. Puede que a algunos les sorprenda saber que el ser humano lleva utilizando datos para tomar decisiones desde la noche de los tiempos. Todos los días utilizamos datos para juzgar cosas aparentemente sencillas, como qué ropa elegir en función del tiempo que hace o cómo ir al trabajo en función del tráfico. Gracias a los continuos avances tecnológicos, actualmente se genera, recopila, almacena y analiza una enorme cantidad de datos. Además, la tecnología también ha avanzado a lo largo de los años para proporcionarnos los medios y las herramientas que necesitamos para recopilar, almacenar, mostrar, comprender y aplicar datos para desarrollar predicciones que ayuden a resolver problemas del mundo real. Además, el aprendizaje automático, un campo que ha crecido tan rápidament e en los últimos tiempos, se basa en el análisis de datos computacionalmente para predecir resultados. El problema de la predicción de la quiebra financiera es esencial en el sector empresarial porque tiene consecuencias en bancos, empresas y organizaciones, siendo el tema principal de esta tesis. Una mala previsión de las dificultades financieras puede acarrear importantes pérdidas económicas. Por ello, se han hecho grandes intentos de crear modelos de predicción que ayuden a mejorar los resultados, ayudando a los responsables de la toma de decisiones a prever incidentes antes de que ocurran y evitando que la empresa entre en quiebra. Desde el punto de vista del aprendizaje automático, la predicción de dificultades financieras se considera un problema de clasificación binaria, en el que el conjunto de datos suele estar muy desequilibrado, lo que significa que la gran mayoría de las empresas son solventes, mientras que sólo un número ínfimo son insolventes. Esto lo convierte en un problema muy difícil. Por ello, en las últimas décadas se han creado diversas técnicas y algoritmos para clasificar conjuntos de datos desbalanceados. Se pueden reconocer tres técnicas principales para el aprendizaje a partir de datos desbalanceados: Técnicas a nivel de datos, también conocidas como métodos externos que modifican las distribuciones de las instancias y pueden excluir muestras problemáticas; técnicas que modifican los algoritmos de aprendizaje existentes, a veces denominadas técnicas internas, para extraer datos con distribuciones sesgadas y disminuir su sesgo hacia las instancias mayoritarias; y por último, estrategias híbridas combinan las ventajas de las dos técnicas anteriores. En esta tesis abordamos los métodos externos y los métodos internos por separado. En el caso de los métodos externos se busca mejorar la capacidad de los modelos de predicción de quiebra empresarial para predecir la quiebra abordando el problema de la distribución desigual. En concreto, nos centramos en aplicar y contrastar once técnicas avanzadas de remuestreo para preprocesar los datos con el fin de reducir su ratio de desbalanceo. Tras el balanceo de los datos, creamos los árboles de decisión para predecir la quiebra empresarial utilizando el clasificador C4.5. Para este estudio se utilizó un conjunto de datos reales procedentes del mercado español. Debido a la distribución extremadamente desbalanceada del conjunto de datos, en el que los casos insolventes representan sólo el 2% de toda la muestra, se considera que es un problema muy complicado. De los resultados obtenidos observamos una mejora sustancial con respecto a las medidas de evaluación, que significa una disminución del error en clasificación de ocurrencias positivas, lo que supone el factor de riesgo más significativo. Por otra parte, en el caso de los métodos internos, las redes neuronales artificiales basadas en la optimización metaheurística han mostrado notables resultados en diversas aplicaciones, incluidos los problemas de clasificación. Aún no se ha reflexionado más sobre el empleo de una función de adecuación sensible a los costes en las redes neuronales artificiales basadas en la optimización metaheurística para abordar el reto de predecir la quiebra empresarial. En esta tesis se proponen dos nuevos modelos predictivos complejos, llamados ENS_PSONNcost y ENS_CSONNcost. Específicamente se trata de redes neuronales artificiales basadas en la optimización metaheurística que utilizan el optimizador de enjambre de partículas (particle swarm optimizer, PSO) y el optimizador de enjambre competitivo (competitive swarm optimizer, CSO) con una función de adecuación sensible al coste. Cada conjunto de predictores (”ensemble”) está compuesto por cinco modelos en un paradigma de aprendizaje de votación mayoritaria. Para evitar sesgos en los conjuntos de datos se consideraron tres conjuntos de datos extremadamente desbalanceados de empresas españolas, taiwanesas y polacas. Usando las medidas g-mean (media geométrica de la sensibilidad y la especificidad) y f1-score (media armónica de la precisión y la sensibilidad) se ha conseguido una mejora considerable en los resultados obtenidos 2023-06-05T07:38:00Z 2023-06-05T07:38:00Z 2023 2023-05-22 doctoral thesis Taha Safi, Salah Al-Deen. Solving real-world finance problems by means of data mining algorithms us ing high- performance computing platforms. Granada: Universidad de Granada, 2023. [https://hdl.handle.net/10481/82206] 9788411178761 https://hdl.handle.net/10481/82206 eng http://creativecommons.org/licenses/by-nc-nd/4.0/ open access Attribution-NonCommercial-NoDerivatives 4.0 Internacional Universidad de Granada