Intelligent Based Network Intrusion Detection System Using Deep Learning Methods and Bioinspired Metaheuristics
Metadatos
Mostrar el registro completo del ítemAutor
Jamoos, MohammadEditorial
Universidad de Granada
Director
Mora García, Antonio MiguelDepartamento
Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y ComunicaciónFecha
2025Fecha lectura
2025-07-10Referencia bibliográfica
Jamoos, Mohammad. Intelligent Based Network Intrusion Detection System Using Deep Learning Methods and Bioinspired Metaheuristics. Granada: Universidad de Granada, 2025. [https://hdl.handle.net/10481/108350]
Patrocinador
Tesis Univ. Granada.Resumen
Imbalanced data refers to an unequal ratio of classes, resulting in one major class and one or
more suppressed classes. This imbalance can significantly impact the classifications made
by machine learning models, which tend to become skewed and unreliable as they favor
the dominant class while often ignoring the smaller classes. Deep neural networks have
been widely utilized for data synthesis in various fields. Recent research, however, indicates
that the efficacy of deep learning models can be enhanced with more balanced datasets.
For high-dimensional data augmentation, Generative Adversarial Networks (GANs) are
considered among the most effective tools. GANs have been one of Artificial Intelligence’s
(AI) most exciting innovations in the past decade. They have revolutionized the deep learning
paradigm, driving some of the most significant technological advances in AI history. GANs
are considered a major breakthrough in AI because they can generate entirely new data rather
than merely replicating the training data.
Intrusion Detection Systems (IDSs) play a crucial role in enhancing network security
by continuously monitoring network traffic and host systems to detect suspicious activities
and potential security threats. The growing prevalence of cyberattacks and vulnerabilities in
network systems highlights the need for automated and sophisticated IDSs. These systems
are designed to learn the normal behavior of network traffic, enabling them to accurately
identify anomalies.
Machine learning (ML) methods have demonstrated their effectiveness in identifying
malicious activity within network traffic. However, the increasing volume of data generated
by IDSs poses significant security challenges, necessitating the development of more advanced
network security measures. Traditional machine learning techniques rely on balanced
datasets, yet many IDS datasets suffer from imbalanced class distributions. This imbalance
adversely impacts the accuracy of ML techniques, leading to the potential oversight of
suspicious activities and an increase in false positives in traditional IDSs. Importantly, in
real-world network environments, malicious traffic is inherently rare compared to normal
traffic. This natural imbalance reflects the actual operational conditions of an IDS, making it essential to work with imbalanced datasets. Addressing this challenge is crucial to ensuring
the effectiveness of ML-based detection systems in recognizing both frequent and rare attack
patterns while minimizing false alarm.
To effectively address the challenge of imbalanced datasets in network intrusion detection,
this thesis presents a novel model, TDCGAN—a tailored generative adversarial
network (GAN) architecture designed to enhance the detection rates of minority classes
while maintaining computational efficiency. Unlike conventional GAN-based approaches,
TDCGAN integrates a unique election layer to refine classification accuracy and improve
decision-making.
The TDCGAN architecture consists of a generator and three discriminators, each contributing
to the model’s ability to capture complex patterns within network traffic data. The
election layer, strategically positioned at the final stage, aggregates the outputs of the discriminators
to determine the most reliable classification outcome. This novel mechanism
reduces misclassification rates and ensures that the model effectively differentiates between
normal and attack instances, even in highly imbalanced datasets.
To rigorously assess the effectiveness of TDCGAN, the UGR’16 dataset—a widely recognized
benchmark for network security with a large-scale network traffic dataset designed
for Intrusion Detection System (IDS) research—is used for evaluation and benchmarking.
Collected from a real-world Internet Service Provider (ISP) network over several months
in 2016, the dataset includes both normal traffic and various types of cyberattacks, making
it valuable for evaluating machine learning-based intrusion detection methods. A comprehensive
comparison is conducted against various machine learning algorithms (such as
the synthetic minority oversampling technique (SMOTE) , Random oversampling, nearest
neighbor (ENN) SMOTEENN, Borderline-SMOTE , SVMSMOTE, CGAN (conditional
generative adversarial network) and CTGAN (conditional tabular generative adversarial
networks), demonstrating the superiority of the proposed model. The results reveal that
TDCGAN significantly outperforms traditional oversampling techniques and other baseline
approaches in detecting security threats, particularly under challenging class distribution
conditions.
By integrating an election layer into the GAN architecture, TDCGAN not only enhances
the detection of minority-class attacks but also introduces a scalable and adaptive framework
for intrusion detection systems (IDS). The experimental findings validate the model’s capability to mitigate biases inherent in IDS datasets, thereby contributing to more reliable and
effective cybersecurity solutions.
TDCGAN generates synthetic attack samples, enhancing the representation of minority attack
classes. By doing so, it helps ML models:
• Improve Detection Accuracy: More attack samples allow models to learn diverse
attack patterns, reducing false negatives.
• Balance Class Distributions:Ensures the ML model does not become biased toward
normal traffic.
• Enhance Generalization: Provides varied attack scenarios, improving the robustness
of IDS models against new or rare threats
The performance of TDCGAN was evaluated on four benchmark IDS datasets: CIC-IDS2017,
CSE-CIC-IDS2018, KDD Cup 99, and BOT-IOT. This evaluation involved applying four
machine learning classifiers (Decision Tree, Random Forest, Multi-Layer Perceptron (MLP),
and Naive Bayes) first to the imbalanced datasets and then to the balanced datasets, highlighting
TDCGAN’s ability to address data imbalance challenges effectively.
The integration of TDCGAN has demonstrated significant improvements in addressing class
imbalance and enhancing classification performance. Los datos desbalanceados se refieren a una distribución desigual de clases, lo que resulta
en una clase principal y una o más clases suprimidas. Este desequilibrio puede afectar significativamente
las clasificaciones realizadas por los modelos de aprendizaje automático, los
cuales tienden a volverse sesgados e ineficaces al favorecer la clase dominante y, a menudo,
ignorar las clases menores. Las redes neuronales profundas han sido ampliamente utilizadas
para la síntesis de datos en diversos campos. Sin embargo, investigaciones recientes indican
que la eficacia de los modelos de aprendizaje profundo puede mejorarse con conjuntos de
datos más equilibrados. Para la ampliación de datos de alta dimensión, las Redes Generativas
Antagónicas (GANs) son consideradas una de las herramientas más efectivas. Las GANs han
sido una de las innovaciones más emocionantes de la Inteligencia Artificial (IA) en la última
década. Han revolucionado el paradigma del aprendizaje profundo, impulsando algunos de
los avances tecnológicos más significativos en la historia de la IA. Se consideran un gran
avance en IA porque pueden generar datos completamente nuevos en lugar de simplemente
replicar los datos de entrenamiento.
Los Sistemas de Detección de Intrusiones (IDS) juegan un papel crucial en la mejora de la
seguridad de las redes mediante la monitorización continua del tráfico de la red y los sistemas
anfitriones para detectar actividades sospechosas y amenazas de seguridad potenciales. La
creciente prevalencia de ciberataques y vulnerabilidades en los sistemas de red resalta la
necesidad de IDS automatizados y sofisticados. Estos sistemas están diseñados para aprender
el comportamiento normal del tráfico de red, lo que les permite identificar con precisión las
anomalías.
Los métodos de aprendizaje automático (ML) han demostrado su eficacia en la identificación
de actividades maliciosas dentro del tráfico de la red. Sin embargo, el volumen
creciente de datos generados por los IDS plantea desafíos de seguridad significativos, lo
que requiere el desarrollo de medidas de seguridad en redes más avanzadas. Las técnicas
tradicionales de aprendizaje automático dependen de conjuntos de datos equilibrados, sin
embargo, muchos conjuntos de datos de IDS sufren de distribuciones desbalanceadas de clases. Este desequilibrio afecta negativamente la precisión de las técnicas de ML, lo que
puede llevar a pasar por alto actividades sospechosas y aumentar los falsos positivos en
los IDS tradicionales. Es importante señalar que, en los entornos de red del mundo real,
el tráfico malicioso es inherentemente raro en comparación con el tráfico normal. Este
desequilibrio natural refleja las condiciones operativas reales de un IDS, haciendo esencial
trabajar con conjuntos de datos desbalanceados. Abordar este desafío es crucial para
garantizar la efectividad de los sistemas de detección basados en ML para reconocer tanto patrones
de ataque frecuentes como raros, al mismo tiempo que se minimizan las falsas alarmas.
Para abordar de manera efectiva el desafío de los conjuntos de datos desbalanceados en
la detección de intrusiones en redes, esta tesis presenta un modelo novedoso, TDCGAN, una
arquitectura de red generativa antagónica (GAN) diseñada para mejorar las tasas de detección
de las clases minoritarias mientras mantiene la eficiencia computacional. A diferencia de los
enfoques convencionales basados en GAN, TDCGAN integra una capa de selección única
para refinar la precisión de clasificación y mejorar la toma de decisiones.
La arquitectura de TDCGAN consta de un generador y tres discriminadores, cada uno
contribuyendo a la capacidad del modelo para capturar patrones complejos dentro de los
datos del tráfico de red. La capa de selección, posicionada estratégicamente en la etapa final,
agrega las salidas de los discriminadores para determinar el resultado de clasificación más
confiable. Este mecanismo novedoso reduce las tasas de clasificación errónea y garantiza
que el modelo diferencie de manera efectiva entre instancias normales y de ataque, incluso
en conjuntos de datos altamente desbalanceados.
Para evaluar rigurosamente la efectividad de TDCGAN, se utiliza el conjunto de datos
UGR’16, un punto de referencia ampliamente reconocido para la seguridad en redes con un
conjunto de datos de tráfico de red a gran escala diseñado para la investigación de Sistemas
de Detección de Intrusiones (IDS). Recopilado de una red de un Proveedor de Servicios de
Internet (ISP) en el mundo real durante varios meses en 2016, el conjunto de datos incluye
tanto tráfico normal como varios tipos de ciberataques, lo que lo hace valioso para evaluar
los métodos de detección de intrusiones basados en aprendizaje automático. Se realiza una
comparación exhaustiva con varios algoritmos de aprendizaje automático (como la técnica
de sobremuestreo de minorías sintéticas (SMOTE), sobremuestreo aleatorio, vecino más
cercano (ENN), SMOTEENN, Borderline-SMOTE, SVMSMOTE, CGAN (red generativa
antagónica condicional) y CTGAN (redes generativas antagónicas condicionales tabulares)),
demostrando la superioridad del modelo propuesto. Los resultados muestran que TDCGAN supera significativamente las técnicas tradicionales de sobremuestreo y otros enfoques base
en la detección de amenazas de seguridad, especialmente bajo condiciones desafiantes de
distribución de clases.
Al integrar una capa de selección en la arquitectura de GAN, TDCGAN no solo mejora la
detección de ataques de clases minoritarias, sino que también introduce un marco escalable y
adaptable para los sistemas de detección de intrusiones (IDS). Los hallazgos experimentales
validan la capacidad del modelo para mitigar los sesgos inherentes a los conjuntos de datos
de IDS, contribuyendo así a soluciones de ciberseguridad más confiables y efectivas.
TDCGAN genera muestras sintéticas de ataque, mejorando la representación de las clases de
ataque minoritarias. Al hacerlo, ayuda a los modelos de ML:
• Mejorar la precisión de detección: Más muestras de ataque permiten a los modelos
aprender patrones de ataque diversos, reduciendo los falsos negativos.
• Balancear las distribuciones de clases: Asegura que el modelo de ML no se sesgue
hacia el tráfico normal.
• Mejorar la generalización: Proporciona escenarios de ataque variados, mejorando la
robustez de los modelos IDS frente a amenazas nuevas o raras.
El rendimiento de TDCGAN se evaluó en cuatro conjuntos de datos de referencia de IDS:
CIC-IDS2017, CSE-CIC-IDS2018, KDD Cup 99 y BOT-IOT. Esta evaluación implicó aplicar
cuatro clasificadores de aprendizaje automático (Árbol de Decisión, Random Forest, Perceptrón
Multicapa (MLP) y Naive Bayes) primero a los conjuntos de datos desbalanceados
y luego a los conjuntos de datos equilibrados, destacando la capacidad de TDCGAN para
abordar los desafíos del desbalance de datos de manera efectiva.
La integración de TDCGAN ha demostrado mejoras significativas en el tratamiento del
desbalance de clases y en el rendimiento de clasificación.





