<rdf:RDF xmlns:rdf="http://www.openarchives.org/OAI/2.0/rdf/" xmlns:ow="http://www.ontoweb.org/ontology/1#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:ds="http://dspace.org/ds/elements/1.1/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:doc="http://www.lyncode.com/xoai" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/rdf/ http://www.openarchives.org/OAI/2.0/rdf.xsd">
   <ow:Publication rdf:about="oai:digibug.ugr.es:10481/68012">
      <dc:title>Pre-procesamiento de datos para aprendizaje de Distribución de Etiquetas</dc:title>
      <dc:creator>González López, Manuel</dc:creator>
      <dc:contributor>García López, Salvador</dc:contributor>
      <dc:contributor>Cano de Amo, José Ramón</dc:contributor>
      <dc:contributor>Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la Comunicación</dc:contributor>
      <dc:subject>Etiquetas</dc:subject>
      <dc:subject>Aprendizaje</dc:subject>
      <dc:subject>Distribución</dc:subject>
      <dc:subject>Datos</dc:subject>
      <dc:description>La memoria se estructura de la siguiente manera: el Capítulo 2 presenta&#xd;
los conceptos teóricos y antecedentes del proceso de extracción de conocimiento y&#xd;
minería de datos, así como los estudios más relevantes realizados sobre la distribución de etiquetas, introduce conceptos básicos sobre la etapa de pre-procesamiento&#xd;
de datos, las estrategias de descomposición y presenta las métricas y los conjuntos&#xd;
de datos utilizados en el apartado experimental. Al fi nal de la misma sección presentaremos&#xd;
un resumen de las estrategias de pre-procesamiento prometedoras para&#xd;
LDL. Seguidamente, en el Capítulo 3 exponemos las publicaciones realizadas. Cada&#xd;
una de ella se corresponde con uno de los objetivos previamente planteados:&#xd;
La primera propuesta es un método de generación sintética de muestras adaptado&#xd;
a las restricciones que supone un modelo LDL. Bajo de la hipótesis de&#xd;
una falta de información en los conjuntos de datos de LDL existentes, necesitamos&#xd;
mejorar los datos originales para aumentar la eficacia de los algoritmos de aprendizaje. Una de las propuestas mas conocidas y utilizadas para tratar&#xd;
este problema es la técnica de muestreo de datos [6] en la que las instancias&#xd;
de entrenamiento se modi can de manera que se produzca una distribución de&#xd;
clases más efi ciente que permita a los clasifi cadores mejorar su rendimiento.&#xd;
Este enfoque aún no ha sido estudiado para el paradigma LDL y puesto que&#xd;
podría resultar prometedor, hemos desarrollado un método de oversampling&#xd;
[87] que crea un superconjunto de datos partiendo del conjunto de datos original,&#xd;
creando nuevas instancias a partir de las existentes. La técnica ideada&#xd;
se basa en uno de los enfoques más utilizados en este área llamado: Synthetic&#xd;
Minority Oversampling Technique (SMOTE) [21].&#xd;
La publicación asociada a esta propuesta queda recogida en el Capítulo 4.&#xd;
La segunda propuesta, enfocada en mejorar el rendimiento de los métodos&#xd;
LDL, se centra en el algoritmo AA-kNN [49], adaptación a LDL del conocido&#xd;
k-NN y que ha demostrado ser un algoritmo muy competitivo en estudios experimentales&#xd;
previos, logrando resultados aceptables y permitiendo un modelo&#xd;
explicable [7]. Sin embargo, como cualquier otro algoritmo basado en instancias,&#xd;
adolece de varios inconvenientes: necesita grandes requisitos de memoria&#xd;
para almacenar el conjunto de entrenamiento, no es e ficiente en la predicción&#xd;
debido a los múltiples cálculos de similitudes entre las muestras de test y entrenamiento&#xd;
y presenta una baja tolerancia al ruido porque utiliza todos los&#xd;
datos como relevantes. La propuesta aplica dos técnicas de reducción de datos&#xd;
como son la selección de prototipos [47], y la selección de características [101].&#xd;
El resultado es un método novedoso para abordar simultáneamente la selección de prototipos y la selección de características especifica cas a cada etiqueta&#xd;
de salida, específicamente diseñado para el algoritmo AA-kNN.&#xd;
La publicación asociada a esta propuesta queda recogida en el Capítulo 5.&#xd;
La ultima propuesta consiste en una transformación de datos orientada a reducir&#xd;
la complejidad del problema. La técnica ideada es una estrategia de descomposición&#xd;
adaptada para tratar problemas LDL y que se inspira en una de&#xd;
las estrategias más conocidas en este área: el esquema \One-Vs-One" (OVO)&#xd;
[64], donde el problema original se divide en problemas binarios que distinguen&#xd;
los diferentes pares de clases, seguidamente, cada división se entrena con un&#xd;
clasificador base. Este método suele requerir un paso adicional para fusionar&#xd;
las salidas de los clasi ficadores simples con el  n de producir el resultado  nal.&#xd;
Para el caso de LDL, el método resultante combina una estrategia de descomposición capaz de manejar la distribución de etiquetas de salida en lugar de&#xd;
valores discretos de clase así como un mecanismo capaz de proporcionar una&#xd;
salida de acuerdo con las restricciones de LDL. Por otro lado, mientras que&#xd;
OVO utiliza un clasi ficador binario como clasi ficador base, en nuestra propuesta&#xd;
tenemos que incluir un clasi ficador LDL que pueda tratar con los valores&#xd;
reales de las etiquetas de salida.&#xd;
La publicación asociada a esta propuesta queda recogida en el Capítulo 6.&#xd;
Analizaremos los resultados de todas estas propuestas en el Capítulo 7. Para&#xd;
7 terminar, el Capítulo 8 recopila las conclusiones alcanzadas e introduce las futuras&#xd;
en líneas de investigación.</dc:description>
      <dc:date>2021-04-20T07:36:16Z</dc:date>
      <dc:date>2021-04-20T07:36:16Z</dc:date>
      <dc:date>2021</dc:date>
      <dc:date>2021-04-16</dc:date>
      <dc:type>doctoral thesis</dc:type>
      <dc:identifier>González López, Manuel. Pre-procesamiento de datos para aprendizaje de Distribución de Etiquetas. Granada: Universidad de Granada, 2021. [http://hdl.handle.net/10481/68012]</dc:identifier>
      <dc:identifier>978-84-1306-830-5</dc:identifier>
      <dc:identifier>http://hdl.handle.net/10481/68012</dc:identifier>
      <dc:language>spa</dc:language>
      <dc:rights>http://creativecommons.org/licenses/by-nc-nd/3.0/es/</dc:rights>
      <dc:rights>open access</dc:rights>
      <dc:rights>Atribución-NoComercial-SinDerivadas 3.0 España</dc:rights>
      <dc:publisher>Universidad de Granada</dc:publisher>
   </ow:Publication>
</rdf:RDF>