Dealing with Imbalanced and Weakly Labeled Data in Machine Learning using Fuzzy Set and Rough Set Methods
Metadatos
Afficher la notice complèteAuteur
Vluymans, SarahEditorial
Universidad de Granada
Departamento
Universidad de Granada.Materia
Tecnologías Datos Máquina Métodos
Materia UDC
654 654.07 3325
Date
2018Fecha lectura
2018-06-29Referencia bibliográfica
Vluymans, Sarah. Dealing with Imbalanced and Weakly Labeled Data in Machine Learning using Fuzzy Set and Rough Set Methods. Granada: Universidad de Granada, 2018. [http://hdl.handle.net/10481/52504]
Patrocinador
Tesis Univ. Granada.; Programa Oficial de Doctorado en Tecnologías de la Información y la Comunicación; Dit doctoraat kwam tot stand met steun van het Bijzonder Onderzoeksfonds van de Universiteit Gent. De buitenlandse verblijven aan de Universiteit van Granada (Spanje) werden gefinancierd door het Fonds voor Wetenschappelijk Onderzoek Vlaanderen. De experimenten in deze thesis werden deels uitgevoerd op de Hercules rekeninfrastructuur van de Universiteit van Granada.Résumé
This thesis focuses on classification. The goal is to predict the class label of elements (that
is, assign them to a category) based on a previously provided dataset of known observations.
Traditionally, a number of features are measured for all observations, such that they can be
described by a feature vector (collecting the values for all features) and an associated outcome,
if the latter is known. In the classic iris dataset, for example, each observation corresponds to
an iris plant and is described by its values for four features representing biological properties
of the flower. The associated class label is the specific family of irises the sample belongs
to and the prediction task is to categorize a plant to the correct family based on its feature
values. A classification algorithm does so based on its training set of labelled instances, that
is, a provided set of iris flowers for which both the features values and class labels are known.
One of the most intuitive classifiers is the nearest neighbour algorithm. To classify a new
element, this method locates the most similar training instance (the nearest neighbour) and
assigns the target to the class to which this neighbour belongs. Other methods build an
explicit classification model from the training set, for example in the format of a decision
tree. Esta tesis se enfoca en el problema de la clasificación. El objetivo consiste en predecir las
etiquetas de clase de determinados datos (es decir, asignarlos a una categoría), basándonos
en un conjunto de datos, proporcionado previamente, que contiene observaciones conocidas.
Tradicionalmente, se miden algunas características para todas las observaciones, de forma
que estas ´ultimas se pueden describir por un vector de características (recopilando los valores
para todas las características) y por un resultado asociado, a condición de que esté disponible.
Por ejemplo, en el conjunto de datos clásico iris, cada observación corresponde a una planta
de iris y está descrita por los valores de sus cuatro características representando propiedades
biológicas de la flor. La etiqueta de clase asociada es la familia especifica de iris a la cual
pertenece la muestra y la tarea de predicción consiste en asignar la planta a la familia correcta
basándonos en los valores de sus características. Un algoritmo de clasificación efectúa
esta tarea basándose en un conjunto de entrenamiento de instancias etiquetadas, es decir, un
conjunto de flores de iris para las cuales se conocen tanto los valores de las características
como las etiquetas de clase. Uno de los clasificadores más intuitivos es el algoritmo de vecinos
más cercanos. Para clasificar un dato nuevo, este método localiza la instancia de entrenamiento
más similar (el vecino más cercano) y lo asigna a la clase a la cual pertenece este
vecino. Otros métodos construyen un modelo de clasificación explícito a partir del conjunto
de entrenamiento, por ejemplo en forma de un árbol de decisión.