@misc{10481/102576, year = {2025}, url = {https://hdl.handle.net/10481/102576}, abstract = {La clasificación de datos consiste en asignar etiquetas o categorías a nuevas observaciones basándose en datos previamente etiquetados. Sin embargo, a pesar de los avances en las técnicas de clasificación, este problema presenta varios desafíos significativos. El desequilibrio de clases ocurre cuando algunas de ellas están subrepresentadas, lo que dificulta la clasificación correcta de estas clases minoritarias. Además, el ruido en los datos puede introducir errores y reducir la precisión de los modelos. En este trabajo se estudia la eficacia de técnicas de procesamiento para mejorar la predicción de resultados en problemas de clasificación de datos desequilibrados y ruidosos. Se ha utilizado una base de datos de expresión genética de 200 genes en 996 individuos, de los cuales 924 son casos de lupus eritematoso sistémico, una enfermedad autoinmune, y 74 son controles sanos. La naturaleza desequilibrada y ruidosa de estos datos requiere técnicas de balanceo de clases y filtrado de ruido para mejorar los modelos de clasificación. Para abordar estos desafíos, se aplicó y comparó la técnica de balanceo de clases Synthetic Minority Over-sampling Technique (SMOTE) y dos métodos de filtrado de ruido: Edited Nearest Neighbors (ENN) e Iterative Partitioning Filter (IPF). Se seleccionaron tres algoritmos de clasificación: el algoritmo C4.5, Random Forest y máquina de vectores de soporte (SVM, de sus siglas en inglés). Para validar la robustez de los modelos, se empleó la técnica de validación cruzada estratificada de 5 particiones. Finalmente, las métricas de evaluación utilizadas fueron la exactitud, la precisión, la sensibilidad, la especificidad, la media geométrica, el F1 score, el área bajo la curva ROC y el coeficiente de correlación de Matthews. En general, al aplicar técnicas de preprocesamiento, se observan diferentes efectos en los algoritmos de clasificación. Con C4.5, SMOTE mantiene la exactitud, pero disminuye con ENN e IPF, aunque el AUC y la sensibilidad mejoran con todas las técnicas, y el F1 score y el MCC tienen variaciones. En Random Forest, la exactitud y el F1 score mejoran con SMOTE, pero disminuyen con ENN, mientras que IPF las mantiene altas; el AUC se mantiene constante y la sensibilidad mejora con todas las técnicas, aunque la especificidad disminuye ligeramente. En SVM, tanto la exactitud como el F1 score y el MCC mejoran con SMOTE e IPF, disminuyendo con ENN, mientras que el AUC y la sensibilidad mejoran con todas las técnicas y la especificidad muestra variaciones. Con los resultados obtenidos puede afirmarse que la combinación de técnicas de balanceo, como SMOTE, con métodos de filtrado de ruido puede mejorar significativamente el rendimiento de los modelos de clasificación en los datos estudiados. Específicamente, en situaciones donde es crucial predecir correctamente la clase minoritaria, el uso de estas técnicas de preprocesamiento mejora notablemente los resultados.}, abstract = {Data classification involves assigning labels or categories to new observations based on previously labeled data. However, despite advances in classification techniques, several significant challenges remain. Class imbalance occurs when some classes are underrepresented, making it difficult to correctly classify these minority classes. Additionally, noise in the data can introduce errors and reduce model accuracy. This work studies the effectiveness of preprocessing techniques to improve outcome prediction in noisy and imbalanced classification problems. We used a database with gene expression measurements of 200 genes in 996 individuals, of which 924 are cases of systemic lupus erythematosus, an autoimmune disease, and 74 are healthy controls. The imbalanced and noisy nature of these data requires class balancing and noise filtering techniques to improve the classification models. To address these challenges, the class balancing technique Synthetic Minority Over-sampling Technique (SMOTE) and two noise filtering methods, Edited Nearest Neighbors (ENN) and Iterative Partitioning Filter (IPF), were applied and compared. Three classification algorithms were selected: the C4.5 algorithm, Random Forest, and Support Vector Machine (SVM). To validate the robustness of the models, a 5-fold stratified cross-validation technique was used. Finally, the evaluation metrics used were accuracy, precision, sensitivity, specificity, geometric mean, F1 score, area under the ROC curve, and Matthews correlation coefficient. In general, applying preprocessing techniques results in different impacts on the classification algorithms. With C4.5, SMOTE maintains accuracy but decreases with ENN and IPF, although AUC and sensitivity improve with all techniques, and F1 score and MCC vary. In Random Forest, accuracy and F1 score improve with SMOTE but decrease with ENN, while IPF maintains them at high levels; AUC remains constant, and sensitivity improves with all techniques, although specificity decreases slightly. In SVM, both accuracy and F1 score and MCC improve with SMOTE and IPF, decreasing with ENN, while AUC and sensitivity improve with all techniques, and specificity shows variations. With the results obtained, we can affirm that the combination of noise filtering and balancing techniques like SMOTE can significantly improve the performance of classification models on the dataset studied. Specifically, in situations where correctly predicting the minority class is crucial, the use of these preprocessing techniques notably enhances the results.}, organization = {Universidad de Granada. Facultad de Ciencias. Estadística Aplicada. Trabajo Fin de Máster. Curso académico 2023/2024}, publisher = {Universidad de Granada}, keywords = {Clasificación}, keywords = {Desequilibrio de clases}, keywords = {Datos con ruido}, keywords = {Classification}, keywords = {Class imbalance}, keywords = {Noisy data}, title = {Evaluación de técnicas de preprocesamiento para problemas de clasificación con datos desequilibrados}, author = {Núñez Nepomuceno, David}, }