Fast k-nearest neighbors for Big Data and Smart Data

Maillo Hidalgo, Jesús

67819.pdf (5.730Mb)

Identificadores

URI: http://hdl.handle.net/10481/62892

ISBN: 9788413065267

Exportar

Editorial

Universidad de Granada

Director

Herrera Triguero, Francisco; Triguero, Isaac

Departamento

Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la Comunicación

Materia

Big Data

Smart Data

Algoritmos

Date

2020

Fecha lectura

2020-05-07

Referencia bibliográfica

Maillo Hidalgo, Jesús. Fast k-nearest neighbors for Big Data and Smart Data. Granada: Universidad de Granada, 2020. [http://hdl.handle.net/10481/62892]

Sponsorship

Tesis Univ. Granada.; Spanish National Research Project TIN2017- 89517-P; Spanish Ministry of Education FPU14/03081

Abstract

In this thesis, we have presented an extensive study of the kNN algorithm in Big Data problems and its application to transform Big Data into Smart Data. The objective has been to the design, implementation, analysis and evaluation of the proposed algorithms. This thesis started by enabling the original kNN classifier to tackle Big Data problems, and then we extended that proposal to allow its fuzzy variation, in order to improve the scalability and accuracy. Afterwards, the implication of the kNN algorithm in obtaining Smart Data is analysed, highlighting the proposal as an imputation of MVs. Finally, two specific complexity and density metrics for Big Data problems are proposed in order to study the redundancy information in large scale datasets.

En esta tesis hemos presentado un amplio estudio sobre el algoritmo kNN en problemas Big Data y su uso para transformar grandes conjuntos de datos en Smart Data. Como objetivo se ha planteado el diseño, implementación, análisis y evaluación de los algoritmos propuestos. Comienza con la propuesta escalable y exacta del algoritmo kNN y se extiende con la mejora aproximada de FkNN. Posteriormente, se ha analizado la implicación del algoritmo kNN en la obtención de Smart Data, destacando la propuesta como imputador de MVs. Finalmente, se han propuesto dos métricas de complejidad y densidad específicas para problemas Big Data con el propósito de estudiar la redundancia de información en conjuntos de datos de gran escala.

Collections

Tesis

Except where otherwise noted, this item's license is described as Atribución-NoComercial-SinDerivadas 3.0 España