Dealing with Imbalanced and Weakly Labeled Data in Machine Learning using Fuzzy Set and Rough Set Methods Vluymans, Sarah Cornelis, Chris Saeys, Yvan Universidad de Granada. Tecnologías Datos Máquina Métodos This thesis focuses on classification. The goal is to predict the class label of elements (that is, assign them to a category) based on a previously provided dataset of known observations. Traditionally, a number of features are measured for all observations, such that they can be described by a feature vector (collecting the values for all features) and an associated outcome, if the latter is known. In the classic iris dataset, for example, each observation corresponds to an iris plant and is described by its values for four features representing biological properties of the flower. The associated class label is the specific family of irises the sample belongs to and the prediction task is to categorize a plant to the correct family based on its feature values. A classification algorithm does so based on its training set of labelled instances, that is, a provided set of iris flowers for which both the features values and class labels are known. One of the most intuitive classifiers is the nearest neighbour algorithm. To classify a new element, this method locates the most similar training instance (the nearest neighbour) and assigns the target to the class to which this neighbour belongs. Other methods build an explicit classification model from the training set, for example in the format of a decision tree. Esta tesis se enfoca en el problema de la clasificación. El objetivo consiste en predecir las etiquetas de clase de determinados datos (es decir, asignarlos a una categoría), basándonos en un conjunto de datos, proporcionado previamente, que contiene observaciones conocidas. Tradicionalmente, se miden algunas características para todas las observaciones, de forma que estas ´ultimas se pueden describir por un vector de características (recopilando los valores para todas las características) y por un resultado asociado, a condición de que esté disponible. Por ejemplo, en el conjunto de datos clásico iris, cada observación corresponde a una planta de iris y está descrita por los valores de sus cuatro características representando propiedades biológicas de la flor. La etiqueta de clase asociada es la familia especifica de iris a la cual pertenece la muestra y la tarea de predicción consiste en asignar la planta a la familia correcta basándonos en los valores de sus características. Un algoritmo de clasificación efectúa esta tarea basándose en un conjunto de entrenamiento de instancias etiquetadas, es decir, un conjunto de flores de iris para las cuales se conocen tanto los valores de las características como las etiquetas de clase. Uno de los clasificadores más intuitivos es el algoritmo de vecinos más cercanos. Para clasificar un dato nuevo, este método localiza la instancia de entrenamiento más similar (el vecino más cercano) y lo asigna a la clase a la cual pertenece este vecino. Otros métodos construyen un modelo de clasificación explícito a partir del conjunto de entrenamiento, por ejemplo en forma de un árbol de decisión. 2018-07-26T09:54:02Z 2018-07-26T09:54:02Z 2018 2018-06-29 info:eu-repo/semantics/doctoralThesis Vluymans, Sarah. Dealing with Imbalanced and Weakly Labeled Data in Machine Learning using Fuzzy Set and Rough Set Methods. Granada: Universidad de Granada, 2018. [http://hdl.handle.net/10481/52504] 9788491639480 http://hdl.handle.net/10481/52504 eng http://creativecommons.org/licenses/by-nc-nd/3.0/es/ info:eu-repo/semantics/openAccess Atribución-NoComercial-SinDerivadas 3.0 España Universidad de Granada