Metodologías de aprendizaje basadas en Deep Learning: preprocesamiento de datos y postprocesamiento
Metadata
Show full item recordAuthor
Castillo Lamas, AlbertoEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la ComunicaciónDate
2023Fecha lectura
2023-04-13Referencia bibliográfica
Castillo Lamas, Alberto. Metodologías de aprendizaje basadas en Deep Learning: preprocesamiento de datos y postprocesamiento. Granada: Universidad de Granada, 2023. [https://hdl.handle.net/10481/81261]
Sponsorship
Tesis Univ. Granada.Abstract
Actualmente los modelos deep learning son la referencia en todas las competiciones de visión por
computador. Especialmente destacan los modelos de detección de objetos, capaces de aprender a resolver
problemas tan complejas como son la localización y clasificación de objetos en imágenes, aprendiendo
al mismo tiempo y retroalimentándose ambos procesos mutuamente. Estos modelos se construyen sobre
redes neuronales convolucionales, capaces de extraer patrones complejos de imágenes igualando e incluso
superando a los seres humanos en ciertas tareas, pero requieren de cantidades descomunales de datos no
siempre disponibles para su entrenamiento.
El entrenamiento de los modelos de detección especializados en problemas muy concretos, además
de la cantidad, requiere de un conjunto de datos de calidad. Existen técnicas que permiten partir de un
conocimiento previamente adquirido con grandes conjuntos de datos, para posteriormente modificar ese
conocimiento ajustándose a otro problema distinto mediante un conjunto de imágenes de un tamaño más
reducido. Sin embargo, en casos como la detección de armas, el modelo de detección sigue produciendo un
número de errores inaceptables para un problema tan sensible que requiere de mucha precisión y un número
mínimo de errores.
Para abordar el problema en el ámbito de la seguridad inteligente como la detección de armas,
próximo a tiempo real en entornos de videovigilancia, se requiere de un modelo robusto frente a condiciones
visualmente perjudiciales, patrones complejos en estos escenarios, y que cometa el mínimo número de
errores posible. Diseñar dicho modelo es un reto complejo debido a que:
La construcción de un nuevo conjunto de datos de imágenes suficientemente grande y de calidad es un
proceso costoso y manual. En ciertos casos, el conocimiento en el diseño de la estrategia de anotación
determina el comportamiento del modelo, lo que hace esta tarea aún más difícil.
El uso de arquitecturas a la vanguardia en detección de objetos en imágenes, y diferentes modelos de
redes convolucionales sobre los que se construyen las arquitecturas de detección en ciertos aspectos
no tienen un rendimiento suficiente en el ámbito de vídeo al estar diseñados para imagen, pudiendo
producir un elevado número de falsos positivos.
Los modelos de detección de objetos pueden tener problemas ante condiciones adversas como contextos
complejos en interior, elementos externos como el clima y la luminosidad, u objetos demasiado
pequeños en la imagen.
Utilizar técnicas de transfer learning y fine-tunning con modelos pre-entrenados en conjuntos de
imágenes masivo como ImageNet o COCO en ciertos aspectos no son suficientes.
Por estos motivos, es necesario el diseño de técnicas específicas de preprocesamiento de imágenes
y postprocesado para hacer más robusto un sistema de detección de armas. En esta tesis se presentan técnicas novedosas de preprocesamiento de imágenes y postprocesado aplicadas sobre modelos deep learning
de detección de objetos con el objetivo de reducir el impacto ante situaciones complejas y condiciones
visualmente adversas mediante propuestas como:
1. Diseño de estrategias de preprocesamiento de imágenes basada en la luminosidad para reducir el
número de falsos positivos producidos en escenarios interiores y especialmente exteriores.
2. Diseño de estrategias de postprocesado para minimizar el número de falsos negativos utilizando
información extraída de la pose humana.