Pre-procesamiento de datos para aprendizaje de Distribución de Etiquetas
Metadatos
Afficher la notice complèteAuteur
González López, ManuelEditorial
Universidad de Granada
Departamento
Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la ComunicaciónMateria
Etiquetas Aprendizaje Distribución Datos
Date
2021Fecha lectura
2021-04-16Referencia bibliográfica
González López, Manuel. Pre-procesamiento de datos para aprendizaje de Distribución de Etiquetas. Granada: Universidad de Granada, 2021. [http://hdl.handle.net/10481/68012]
Patrocinador
Tesis Univ. Granada.Résumé
La memoria se estructura de la siguiente manera: el Capítulo 2 presenta
los conceptos teóricos y antecedentes del proceso de extracción de conocimiento y
minería de datos, así como los estudios más relevantes realizados sobre la distribución de etiquetas, introduce conceptos básicos sobre la etapa de pre-procesamiento
de datos, las estrategias de descomposición y presenta las métricas y los conjuntos
de datos utilizados en el apartado experimental. Al fi nal de la misma sección presentaremos
un resumen de las estrategias de pre-procesamiento prometedoras para
LDL. Seguidamente, en el Capítulo 3 exponemos las publicaciones realizadas. Cada
una de ella se corresponde con uno de los objetivos previamente planteados:
La primera propuesta es un método de generación sintética de muestras adaptado
a las restricciones que supone un modelo LDL. Bajo de la hipótesis de
una falta de información en los conjuntos de datos de LDL existentes, necesitamos
mejorar los datos originales para aumentar la eficacia de los algoritmos de aprendizaje. Una de las propuestas mas conocidas y utilizadas para tratar
este problema es la técnica de muestreo de datos [6] en la que las instancias
de entrenamiento se modi can de manera que se produzca una distribución de
clases más efi ciente que permita a los clasifi cadores mejorar su rendimiento.
Este enfoque aún no ha sido estudiado para el paradigma LDL y puesto que
podría resultar prometedor, hemos desarrollado un método de oversampling
[87] que crea un superconjunto de datos partiendo del conjunto de datos original,
creando nuevas instancias a partir de las existentes. La técnica ideada
se basa en uno de los enfoques más utilizados en este área llamado: Synthetic
Minority Oversampling Technique (SMOTE) [21].
La publicación asociada a esta propuesta queda recogida en el Capítulo 4.
La segunda propuesta, enfocada en mejorar el rendimiento de los métodos
LDL, se centra en el algoritmo AA-kNN [49], adaptación a LDL del conocido
k-NN y que ha demostrado ser un algoritmo muy competitivo en estudios experimentales
previos, logrando resultados aceptables y permitiendo un modelo
explicable [7]. Sin embargo, como cualquier otro algoritmo basado en instancias,
adolece de varios inconvenientes: necesita grandes requisitos de memoria
para almacenar el conjunto de entrenamiento, no es e ficiente en la predicción
debido a los múltiples cálculos de similitudes entre las muestras de test y entrenamiento
y presenta una baja tolerancia al ruido porque utiliza todos los
datos como relevantes. La propuesta aplica dos técnicas de reducción de datos
como son la selección de prototipos [47], y la selección de características [101].
El resultado es un método novedoso para abordar simultáneamente la selección de prototipos y la selección de características especifica cas a cada etiqueta
de salida, específicamente diseñado para el algoritmo AA-kNN.
La publicación asociada a esta propuesta queda recogida en el Capítulo 5.
La ultima propuesta consiste en una transformación de datos orientada a reducir
la complejidad del problema. La técnica ideada es una estrategia de descomposición
adaptada para tratar problemas LDL y que se inspira en una de
las estrategias más conocidas en este área: el esquema \One-Vs-One" (OVO)
[64], donde el problema original se divide en problemas binarios que distinguen
los diferentes pares de clases, seguidamente, cada división se entrena con un
clasificador base. Este método suele requerir un paso adicional para fusionar
las salidas de los clasi ficadores simples con el n de producir el resultado nal.
Para el caso de LDL, el método resultante combina una estrategia de descomposición capaz de manejar la distribución de etiquetas de salida en lugar de
valores discretos de clase así como un mecanismo capaz de proporcionar una
salida de acuerdo con las restricciones de LDL. Por otro lado, mientras que
OVO utiliza un clasi ficador binario como clasi ficador base, en nuestra propuesta
tenemos que incluir un clasi ficador LDL que pueda tratar con los valores
reales de las etiquetas de salida.
La publicación asociada a esta propuesta queda recogida en el Capítulo 6.
Analizaremos los resultados de todas estas propuestas en el Capítulo 7. Para
7 terminar, el Capítulo 8 recopila las conclusiones alcanzadas e introduce las futuras
en líneas de investigación.