Mostrar el registro sencillo del ítem

dc.contributor.advisorGarcía López, Salvador 
dc.contributor.advisorCano de Amo, José Ramón
dc.contributor.authorGonzález López, Manuel
dc.contributor.otherUniversidad de Granada. Programa de Doctorado en Tecnologías de la Información y la Comunicaciónes_ES
dc.date.accessioned2021-04-20T07:36:16Z
dc.date.available2021-04-20T07:36:16Z
dc.date.issued2021
dc.date.submitted2021-04-16
dc.identifier.citationGonzález López, Manuel. Pre-procesamiento de datos para aprendizaje de Distribución de Etiquetas. Granada: Universidad de Granada, 2021. [http://hdl.handle.net/10481/68012]es_ES
dc.identifier.isbn978-84-1306-830-5
dc.identifier.urihttp://hdl.handle.net/10481/68012
dc.description.abstractLa memoria se estructura de la siguiente manera: el Capítulo 2 presenta los conceptos teóricos y antecedentes del proceso de extracción de conocimiento y minería de datos, así como los estudios más relevantes realizados sobre la distribución de etiquetas, introduce conceptos básicos sobre la etapa de pre-procesamiento de datos, las estrategias de descomposición y presenta las métricas y los conjuntos de datos utilizados en el apartado experimental. Al fi nal de la misma sección presentaremos un resumen de las estrategias de pre-procesamiento prometedoras para LDL. Seguidamente, en el Capítulo 3 exponemos las publicaciones realizadas. Cada una de ella se corresponde con uno de los objetivos previamente planteados: La primera propuesta es un método de generación sintética de muestras adaptado a las restricciones que supone un modelo LDL. Bajo de la hipótesis de una falta de información en los conjuntos de datos de LDL existentes, necesitamos mejorar los datos originales para aumentar la eficacia de los algoritmos de aprendizaje. Una de las propuestas mas conocidas y utilizadas para tratar este problema es la técnica de muestreo de datos [6] en la que las instancias de entrenamiento se modi can de manera que se produzca una distribución de clases más efi ciente que permita a los clasifi cadores mejorar su rendimiento. Este enfoque aún no ha sido estudiado para el paradigma LDL y puesto que podría resultar prometedor, hemos desarrollado un método de oversampling [87] que crea un superconjunto de datos partiendo del conjunto de datos original, creando nuevas instancias a partir de las existentes. La técnica ideada se basa en uno de los enfoques más utilizados en este área llamado: Synthetic Minority Oversampling Technique (SMOTE) [21]. La publicación asociada a esta propuesta queda recogida en el Capítulo 4. La segunda propuesta, enfocada en mejorar el rendimiento de los métodos LDL, se centra en el algoritmo AA-kNN [49], adaptación a LDL del conocido k-NN y que ha demostrado ser un algoritmo muy competitivo en estudios experimentales previos, logrando resultados aceptables y permitiendo un modelo explicable [7]. Sin embargo, como cualquier otro algoritmo basado en instancias, adolece de varios inconvenientes: necesita grandes requisitos de memoria para almacenar el conjunto de entrenamiento, no es e ficiente en la predicción debido a los múltiples cálculos de similitudes entre las muestras de test y entrenamiento y presenta una baja tolerancia al ruido porque utiliza todos los datos como relevantes. La propuesta aplica dos técnicas de reducción de datos como son la selección de prototipos [47], y la selección de características [101]. El resultado es un método novedoso para abordar simultáneamente la selección de prototipos y la selección de características especifica cas a cada etiqueta de salida, específicamente diseñado para el algoritmo AA-kNN. La publicación asociada a esta propuesta queda recogida en el Capítulo 5. La ultima propuesta consiste en una transformación de datos orientada a reducir la complejidad del problema. La técnica ideada es una estrategia de descomposición adaptada para tratar problemas LDL y que se inspira en una de las estrategias más conocidas en este área: el esquema \One-Vs-One" (OVO) [64], donde el problema original se divide en problemas binarios que distinguen los diferentes pares de clases, seguidamente, cada división se entrena con un clasificador base. Este método suele requerir un paso adicional para fusionar las salidas de los clasi ficadores simples con el n de producir el resultado nal. Para el caso de LDL, el método resultante combina una estrategia de descomposición capaz de manejar la distribución de etiquetas de salida en lugar de valores discretos de clase así como un mecanismo capaz de proporcionar una salida de acuerdo con las restricciones de LDL. Por otro lado, mientras que OVO utiliza un clasi ficador binario como clasi ficador base, en nuestra propuesta tenemos que incluir un clasi ficador LDL que pueda tratar con los valores reales de las etiquetas de salida. La publicación asociada a esta propuesta queda recogida en el Capítulo 6. Analizaremos los resultados de todas estas propuestas en el Capítulo 7. Para 7 terminar, el Capítulo 8 recopila las conclusiones alcanzadas e introduce las futuras en líneas de investigación.es_ES
dc.description.sponsorshipTesis Univ. Granada.es_ES
dc.format.mimetypeapplication/pdfen_US
dc.language.isospaes_ES
dc.publisherUniversidad de Granadaes_ES
dc.rightsAtribución-NoComercial-SinDerivadas 3.0 España*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/es/*
dc.subjectEtiquetases_ES
dc.subjectAprendizaje es_ES
dc.subjectDistribuciónes_ES
dc.subjectDatos es_ES
dc.titlePre-procesamiento de datos para aprendizaje de Distribución de Etiquetases_ES
dc.typedoctoral thesises_ES
europeana.typeTEXTen_US
europeana.dataProviderUniversidad de Granada. España.es_ES
europeana.rightshttp://creativecommons.org/licenses/by-nc-nd/3.0/en_US
dc.rights.accessRightsopen accesses_ES
dc.type.hasVersionVoRes_ES


Ficheros en el ítem

[PDF]

Este ítem aparece en la(s) siguiente(s) colección(ones)

  • Tesis
    Tesis leídas en la Universidad de Granada

Mostrar el registro sencillo del ítem

Atribución-NoComercial-SinDerivadas 3.0 España
Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución-NoComercial-SinDerivadas 3.0 España