@misc{10481/108350, year = {2025}, url = {https://hdl.handle.net/10481/108350}, abstract = {Imbalanced data refers to an unequal ratio of classes, resulting in one major class and one or more suppressed classes. This imbalance can significantly impact the classifications made by machine learning models, which tend to become skewed and unreliable as they favor the dominant class while often ignoring the smaller classes. Deep neural networks have been widely utilized for data synthesis in various fields. Recent research, however, indicates that the efficacy of deep learning models can be enhanced with more balanced datasets. For high-dimensional data augmentation, Generative Adversarial Networks (GANs) are considered among the most effective tools. GANs have been one of Artificial Intelligence’s (AI) most exciting innovations in the past decade. They have revolutionized the deep learning paradigm, driving some of the most significant technological advances in AI history. GANs are considered a major breakthrough in AI because they can generate entirely new data rather than merely replicating the training data. Intrusion Detection Systems (IDSs) play a crucial role in enhancing network security by continuously monitoring network traffic and host systems to detect suspicious activities and potential security threats. The growing prevalence of cyberattacks and vulnerabilities in network systems highlights the need for automated and sophisticated IDSs. These systems are designed to learn the normal behavior of network traffic, enabling them to accurately identify anomalies. Machine learning (ML) methods have demonstrated their effectiveness in identifying malicious activity within network traffic. However, the increasing volume of data generated by IDSs poses significant security challenges, necessitating the development of more advanced network security measures. Traditional machine learning techniques rely on balanced datasets, yet many IDS datasets suffer from imbalanced class distributions. This imbalance adversely impacts the accuracy of ML techniques, leading to the potential oversight of suspicious activities and an increase in false positives in traditional IDSs. Importantly, in real-world network environments, malicious traffic is inherently rare compared to normal traffic. This natural imbalance reflects the actual operational conditions of an IDS, making it essential to work with imbalanced datasets. Addressing this challenge is crucial to ensuring the effectiveness of ML-based detection systems in recognizing both frequent and rare attack patterns while minimizing false alarm. To effectively address the challenge of imbalanced datasets in network intrusion detection, this thesis presents a novel model, TDCGAN—a tailored generative adversarial network (GAN) architecture designed to enhance the detection rates of minority classes while maintaining computational efficiency. Unlike conventional GAN-based approaches, TDCGAN integrates a unique election layer to refine classification accuracy and improve decision-making. The TDCGAN architecture consists of a generator and three discriminators, each contributing to the model’s ability to capture complex patterns within network traffic data. The election layer, strategically positioned at the final stage, aggregates the outputs of the discriminators to determine the most reliable classification outcome. This novel mechanism reduces misclassification rates and ensures that the model effectively differentiates between normal and attack instances, even in highly imbalanced datasets. To rigorously assess the effectiveness of TDCGAN, the UGR’16 dataset—a widely recognized benchmark for network security with a large-scale network traffic dataset designed for Intrusion Detection System (IDS) research—is used for evaluation and benchmarking. Collected from a real-world Internet Service Provider (ISP) network over several months in 2016, the dataset includes both normal traffic and various types of cyberattacks, making it valuable for evaluating machine learning-based intrusion detection methods. A comprehensive comparison is conducted against various machine learning algorithms (such as the synthetic minority oversampling technique (SMOTE) , Random oversampling, nearest neighbor (ENN) SMOTEENN, Borderline-SMOTE , SVMSMOTE, CGAN (conditional generative adversarial network) and CTGAN (conditional tabular generative adversarial networks), demonstrating the superiority of the proposed model. The results reveal that TDCGAN significantly outperforms traditional oversampling techniques and other baseline approaches in detecting security threats, particularly under challenging class distribution conditions. By integrating an election layer into the GAN architecture, TDCGAN not only enhances the detection of minority-class attacks but also introduces a scalable and adaptive framework for intrusion detection systems (IDS). The experimental findings validate the model’s capability to mitigate biases inherent in IDS datasets, thereby contributing to more reliable and effective cybersecurity solutions. TDCGAN generates synthetic attack samples, enhancing the representation of minority attack classes. By doing so, it helps ML models: • Improve Detection Accuracy: More attack samples allow models to learn diverse attack patterns, reducing false negatives. • Balance Class Distributions:Ensures the ML model does not become biased toward normal traffic. • Enhance Generalization: Provides varied attack scenarios, improving the robustness of IDS models against new or rare threats The performance of TDCGAN was evaluated on four benchmark IDS datasets: CIC-IDS2017, CSE-CIC-IDS2018, KDD Cup 99, and BOT-IOT. This evaluation involved applying four machine learning classifiers (Decision Tree, Random Forest, Multi-Layer Perceptron (MLP), and Naive Bayes) first to the imbalanced datasets and then to the balanced datasets, highlighting TDCGAN’s ability to address data imbalance challenges effectively. The integration of TDCGAN has demonstrated significant improvements in addressing class imbalance and enhancing classification performance.}, abstract = {Los datos desbalanceados se refieren a una distribución desigual de clases, lo que resulta en una clase principal y una o más clases suprimidas. Este desequilibrio puede afectar significativamente las clasificaciones realizadas por los modelos de aprendizaje automático, los cuales tienden a volverse sesgados e ineficaces al favorecer la clase dominante y, a menudo, ignorar las clases menores. Las redes neuronales profundas han sido ampliamente utilizadas para la síntesis de datos en diversos campos. Sin embargo, investigaciones recientes indican que la eficacia de los modelos de aprendizaje profundo puede mejorarse con conjuntos de datos más equilibrados. Para la ampliación de datos de alta dimensión, las Redes Generativas Antagónicas (GANs) son consideradas una de las herramientas más efectivas. Las GANs han sido una de las innovaciones más emocionantes de la Inteligencia Artificial (IA) en la última década. Han revolucionado el paradigma del aprendizaje profundo, impulsando algunos de los avances tecnológicos más significativos en la historia de la IA. Se consideran un gran avance en IA porque pueden generar datos completamente nuevos en lugar de simplemente replicar los datos de entrenamiento. Los Sistemas de Detección de Intrusiones (IDS) juegan un papel crucial en la mejora de la seguridad de las redes mediante la monitorización continua del tráfico de la red y los sistemas anfitriones para detectar actividades sospechosas y amenazas de seguridad potenciales. La creciente prevalencia de ciberataques y vulnerabilidades en los sistemas de red resalta la necesidad de IDS automatizados y sofisticados. Estos sistemas están diseñados para aprender el comportamiento normal del tráfico de red, lo que les permite identificar con precisión las anomalías. Los métodos de aprendizaje automático (ML) han demostrado su eficacia en la identificación de actividades maliciosas dentro del tráfico de la red. Sin embargo, el volumen creciente de datos generados por los IDS plantea desafíos de seguridad significativos, lo que requiere el desarrollo de medidas de seguridad en redes más avanzadas. Las técnicas tradicionales de aprendizaje automático dependen de conjuntos de datos equilibrados, sin embargo, muchos conjuntos de datos de IDS sufren de distribuciones desbalanceadas de clases. Este desequilibrio afecta negativamente la precisión de las técnicas de ML, lo que puede llevar a pasar por alto actividades sospechosas y aumentar los falsos positivos en los IDS tradicionales. Es importante señalar que, en los entornos de red del mundo real, el tráfico malicioso es inherentemente raro en comparación con el tráfico normal. Este desequilibrio natural refleja las condiciones operativas reales de un IDS, haciendo esencial trabajar con conjuntos de datos desbalanceados. Abordar este desafío es crucial para garantizar la efectividad de los sistemas de detección basados en ML para reconocer tanto patrones de ataque frecuentes como raros, al mismo tiempo que se minimizan las falsas alarmas. Para abordar de manera efectiva el desafío de los conjuntos de datos desbalanceados en la detección de intrusiones en redes, esta tesis presenta un modelo novedoso, TDCGAN, una arquitectura de red generativa antagónica (GAN) diseñada para mejorar las tasas de detección de las clases minoritarias mientras mantiene la eficiencia computacional. A diferencia de los enfoques convencionales basados en GAN, TDCGAN integra una capa de selección única para refinar la precisión de clasificación y mejorar la toma de decisiones. La arquitectura de TDCGAN consta de un generador y tres discriminadores, cada uno contribuyendo a la capacidad del modelo para capturar patrones complejos dentro de los datos del tráfico de red. La capa de selección, posicionada estratégicamente en la etapa final, agrega las salidas de los discriminadores para determinar el resultado de clasificación más confiable. Este mecanismo novedoso reduce las tasas de clasificación errónea y garantiza que el modelo diferencie de manera efectiva entre instancias normales y de ataque, incluso en conjuntos de datos altamente desbalanceados. Para evaluar rigurosamente la efectividad de TDCGAN, se utiliza el conjunto de datos UGR’16, un punto de referencia ampliamente reconocido para la seguridad en redes con un conjunto de datos de tráfico de red a gran escala diseñado para la investigación de Sistemas de Detección de Intrusiones (IDS). Recopilado de una red de un Proveedor de Servicios de Internet (ISP) en el mundo real durante varios meses en 2016, el conjunto de datos incluye tanto tráfico normal como varios tipos de ciberataques, lo que lo hace valioso para evaluar los métodos de detección de intrusiones basados en aprendizaje automático. Se realiza una comparación exhaustiva con varios algoritmos de aprendizaje automático (como la técnica de sobremuestreo de minorías sintéticas (SMOTE), sobremuestreo aleatorio, vecino más cercano (ENN), SMOTEENN, Borderline-SMOTE, SVMSMOTE, CGAN (red generativa antagónica condicional) y CTGAN (redes generativas antagónicas condicionales tabulares)), demostrando la superioridad del modelo propuesto. Los resultados muestran que TDCGAN supera significativamente las técnicas tradicionales de sobremuestreo y otros enfoques base en la detección de amenazas de seguridad, especialmente bajo condiciones desafiantes de distribución de clases. Al integrar una capa de selección en la arquitectura de GAN, TDCGAN no solo mejora la detección de ataques de clases minoritarias, sino que también introduce un marco escalable y adaptable para los sistemas de detección de intrusiones (IDS). Los hallazgos experimentales validan la capacidad del modelo para mitigar los sesgos inherentes a los conjuntos de datos de IDS, contribuyendo así a soluciones de ciberseguridad más confiables y efectivas. TDCGAN genera muestras sintéticas de ataque, mejorando la representación de las clases de ataque minoritarias. Al hacerlo, ayuda a los modelos de ML: • Mejorar la precisión de detección: Más muestras de ataque permiten a los modelos aprender patrones de ataque diversos, reduciendo los falsos negativos. • Balancear las distribuciones de clases: Asegura que el modelo de ML no se sesgue hacia el tráfico normal. • Mejorar la generalización: Proporciona escenarios de ataque variados, mejorando la robustez de los modelos IDS frente a amenazas nuevas o raras. El rendimiento de TDCGAN se evaluó en cuatro conjuntos de datos de referencia de IDS: CIC-IDS2017, CSE-CIC-IDS2018, KDD Cup 99 y BOT-IOT. Esta evaluación implicó aplicar cuatro clasificadores de aprendizaje automático (Árbol de Decisión, Random Forest, Perceptrón Multicapa (MLP) y Naive Bayes) primero a los conjuntos de datos desbalanceados y luego a los conjuntos de datos equilibrados, destacando la capacidad de TDCGAN para abordar los desafíos del desbalance de datos de manera efectiva. La integración de TDCGAN ha demostrado mejoras significativas en el tratamiento del desbalance de clases y en el rendimiento de clasificación.}, organization = {Tesis Univ. Granada.}, publisher = {Universidad de Granada}, title = {Intelligent Based Network Intrusion Detection System Using Deep Learning Methods and Bioinspired Metaheuristics}, author = {Jamoos, Mohammad}, }