Pre-procesamiento de datos para aprendizaje de Distribución de Etiquetas

González López, Manuel

dc.contributor.advisor	García López, Salvador
dc.contributor.advisor	Cano de Amo, José Ramón
dc.contributor.author	González López, Manuel
dc.contributor.other	Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la Comunicación	es_ES
dc.date.accessioned	2021-04-20T07:36:16Z
dc.date.available	2021-04-20T07:36:16Z
dc.date.issued	2021
dc.date.submitted	2021-04-16
dc.identifier.citation	González López, Manuel. Pre-procesamiento de datos para aprendizaje de Distribución de Etiquetas. Granada: Universidad de Granada, 2021. [http://hdl.handle.net/10481/68012]	es_ES
dc.identifier.isbn	978-84-1306-830-5
dc.identifier.uri	http://hdl.handle.net/10481/68012
dc.description.abstract	La memoria se estructura de la siguiente manera: el Capítulo 2 presenta los conceptos teóricos y antecedentes del proceso de extracción de conocimiento y minería de datos, así como los estudios más relevantes realizados sobre la distribución de etiquetas, introduce conceptos básicos sobre la etapa de pre-procesamiento de datos, las estrategias de descomposición y presenta las métricas y los conjuntos de datos utilizados en el apartado experimental. Al fi nal de la misma sección presentaremos un resumen de las estrategias de pre-procesamiento prometedoras para LDL. Seguidamente, en el Capítulo 3 exponemos las publicaciones realizadas. Cada una de ella se corresponde con uno de los objetivos previamente planteados: La primera propuesta es un método de generación sintética de muestras adaptado a las restricciones que supone un modelo LDL. Bajo de la hipótesis de una falta de información en los conjuntos de datos de LDL existentes, necesitamos mejorar los datos originales para aumentar la eficacia de los algoritmos de aprendizaje. Una de las propuestas mas conocidas y utilizadas para tratar este problema es la técnica de muestreo de datos [6] en la que las instancias de entrenamiento se modi can de manera que se produzca una distribución de clases más efi ciente que permita a los clasifi cadores mejorar su rendimiento. Este enfoque aún no ha sido estudiado para el paradigma LDL y puesto que podría resultar prometedor, hemos desarrollado un método de oversampling [87] que crea un superconjunto de datos partiendo del conjunto de datos original, creando nuevas instancias a partir de las existentes. La técnica ideada se basa en uno de los enfoques más utilizados en este área llamado: Synthetic Minority Oversampling Technique (SMOTE) [21]. La publicación asociada a esta propuesta queda recogida en el Capítulo 4. La segunda propuesta, enfocada en mejorar el rendimiento de los métodos LDL, se centra en el algoritmo AA-kNN [49], adaptación a LDL del conocido k-NN y que ha demostrado ser un algoritmo muy competitivo en estudios experimentales previos, logrando resultados aceptables y permitiendo un modelo explicable [7]. Sin embargo, como cualquier otro algoritmo basado en instancias, adolece de varios inconvenientes: necesita grandes requisitos de memoria para almacenar el conjunto de entrenamiento, no es e ficiente en la predicción debido a los múltiples cálculos de similitudes entre las muestras de test y entrenamiento y presenta una baja tolerancia al ruido porque utiliza todos los datos como relevantes. La propuesta aplica dos técnicas de reducción de datos como son la selección de prototipos [47], y la selección de características [101]. El resultado es un método novedoso para abordar simultáneamente la selección de prototipos y la selección de características especifica cas a cada etiqueta de salida, específicamente diseñado para el algoritmo AA-kNN. La publicación asociada a esta propuesta queda recogida en el Capítulo 5. La ultima propuesta consiste en una transformación de datos orientada a reducir la complejidad del problema. La técnica ideada es una estrategia de descomposición adaptada para tratar problemas LDL y que se inspira en una de las estrategias más conocidas en este área: el esquema \One-Vs-One" (OVO) [64], donde el problema original se divide en problemas binarios que distinguen los diferentes pares de clases, seguidamente, cada división se entrena con un clasificador base. Este método suele requerir un paso adicional para fusionar las salidas de los clasi ficadores simples con el n de producir el resultado nal. Para el caso de LDL, el método resultante combina una estrategia de descomposición capaz de manejar la distribución de etiquetas de salida en lugar de valores discretos de clase así como un mecanismo capaz de proporcionar una salida de acuerdo con las restricciones de LDL. Por otro lado, mientras que OVO utiliza un clasi ficador binario como clasi ficador base, en nuestra propuesta tenemos que incluir un clasi ficador LDL que pueda tratar con los valores reales de las etiquetas de salida. La publicación asociada a esta propuesta queda recogida en el Capítulo 6. Analizaremos los resultados de todas estas propuestas en el Capítulo 7. Para 7 terminar, el Capítulo 8 recopila las conclusiones alcanzadas e introduce las futuras en líneas de investigación.	es_ES
dc.description.sponsorship	Tesis Univ. Granada.	es_ES
dc.format.mimetype	application/pdf	en_US
dc.language.iso	spa	es_ES
dc.publisher	Universidad de Granada	es_ES
dc.rights	Atribución-NoComercial-SinDerivadas 3.0 España	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/es/	*
dc.subject	Etiquetas	es_ES
dc.subject	Aprendizaje	es_ES
dc.subject	Distribución	es_ES
dc.subject	Datos	es_ES
dc.title	Pre-procesamiento de datos para aprendizaje de Distribución de Etiquetas	es_ES
dc.type	doctoral thesis	es_ES
europeana.type	TEXT	en_US
europeana.dataProvider	Universidad de Granada. España.	es_ES
europeana.rights	http://creativecommons.org/licenses/by-nc-nd/3.0/	en_US
dc.rights.accessRights	open access	es_ES
dc.type.hasVersion	VoR	es_ES

Files in this item

Name:: 88297.pdf
Size:: 9.563Mb
Format:: PDF

This item appears in the following Collection(s)

Tesis
Tesis leídas en la Universidad de Granada

Show simple item record

Except where otherwise noted, this item's license is described as Atribución-NoComercial-SinDerivadas 3.0 España