Desarrollo de modelos de clasificación de imágenes histológicas basados en técnicas de crowdsourcing
Identificadores
URI: http://hdl.handle.net/10481/69597Metadata
Show full item recordDirector
Molina Soriano, RafaelMateria
Crowdsourcing Inferencia estadística Inferencia variacional Matemáticas Imágenes histológicas Ciencia de datos
Date
2021Sponsorship
Universidad de Granada. Facultad de Ciencias. Grado en Matemáticas. Curso académico 2020-2021Abstract
The main subject of this work is to develop the theory needed to understand and analyze a
classification experiment based on crowdsourcing and apply it to breast cancer histological
images.
First, we will introduce basic concepts of variational inference, based on [Bis06], [KF09]
and [Pri12]. This is a quite advanced concept for a Mathematics Degree student. Because of
that, we will start by introducing Bayesian inference before, based on [Was04] and [Bol07].
While Bayesian inference is explained, we get used to concepts such as prior distribution or
posterior distribution, and a new way of estimation that is more general than maximum likelihood
estimation, which has been widely explained during Mathematics Degree: maximum a
posteriori estimation. With this background, we introduce basic concepts of variational inference:
Kullback-Leibler divergence and the evidence lower bound, using concepts of Statistic
Inference and Functional Analysis.
Secondly, we will introduce basic concepts of Gaussian processes and apply them to regression,
based on [RW06]. To understand them, we will explain Bayesian regression before.
As we explain concepts such as basis function, we can comprehend Gaussian processes as
models of distributions over functions. This will be useful for introducing regression using
Gaussian processes. We will then explain supervised classification tasks using linear models.
Thirdly, we will introduce the color normalization and color transfer problems, based on
[RAGS01]. This chapter provides a description of steps that have to be taken before image
classification. The algorithm explained will be used on real histological images extracted
from the Digital Pathology Asociation repository, [DPA].
To conclude, we will use all what we have learned in the previous chapters to develop a
classification model using scalable variational Gaussian processes, specifically on crowdsourcing.
We will explain this based on [MARC+20].We will introduce the crowdsourcing problem
as well as classification figures of merits used in machine learning, which are explained on
[Gé17]. Finally, we will analyze the breast cancer experiment results from [LPAMÁ+21].
By analyzing this paper the main subject of this work has been achieved, since we have used
Statistic Inference, Computational Statistics, programming, and Functional Analysis knowledge
from Mathematics Degree, in order to understand variational inference and Gaussian
processes theory. Given that, we have applied it to machine learning, especially to crowdsourcing.
From the knowledge of a student from a Mathematics degree, we get to approach
state-of-the-art data science methods. El objetivo de este trabajo es desarrollar la teoría necesaria para entender y analizar un experimento
de aprendizaje automático basado en crowdsourcing aplicado a imágenes histológicas
de cáncer de mama.
En primer lugar, desarrollaremos los conceptos básicos de inferencia variacional basándonos
esencialmente en [Bis06], [KF09] y [Pri12]. Desde los conocimientos de Inferencia
Estadística que tiene un estudiante del Grado en Matemáticas, el salto conceptual a la inferencia
variacional puede ser grande. Es por eso que se desarrolla de manera intermedia
la inferencia bayesiana, basándonos en [Was04] y [Bol07]. Durante el desarrollo de la inferencia
bayesiana, conseguimos familiarizarnos con los conceptos de distribución a priori y
distribución a posteriori, y una nueva forma de estimación que generaliza a la estimación
máximo verosímil desarrollada durante el Grado en Matemáticas: la estimación máximo
a posteriori. Hechas estas consideraciones, conseguimos desarrollar los conceptos básicos
de inferencia variacional: la divergencia Kullback-Leibler y la cota inferior de la evidencia,
utilizando conceptos de Inferencia Estadística junto a conceptos de Análisis Funcional.
En segundo lugar, desarrollaremos los conceptos básicos de procesos gaussianos aplicados
a regresión, basándonos en [RW06]. De nuevo, para desarrollarlos desde el conocimiento de
un estudiante del Grado en Matemáticas se desarrolla en primer lugar la regresión desde
la inferencia bayesiana. Así, conseguimos familiarizarnos con el concepto de función base,
que nos permite entender los procesos gaussianos como modelos de distribución sobre un
espacio de funciones. Utilizaremos esto para desarrollar regresión usando procesos gaussianos.
Finalmente, se utiliza la teoría de modelos lineales desarrollada para introducir los
problemas de clasificación supervisada.
En tercer lugar, haremos una revisión del artículo de normalización de color [RAGS01].
Este capítulo da una idea de cómo es el proceso previo a la tarea de clasificación de imágenes,
mediante desarrollos matemáticos sencillos. Aplicaremos el algoritmo planteado en imágenes
histológicas extraídas del repositorio de la Digital Pathology Asociation [DPA].
Finalmente, en el cuarto capítulo, aplicamos todo lo desarrollado anteriormente. Desarrollaremos
el modelo de clasificación por procesos gaussianos variacionales escalables en el
marco del crowdsourcing. Para ello nos basaremos en el artículo [MARC+20]. Introducimos
el problema del crowdsourcing, junto con algunos conceptos de aprendizaje automático en
el contexto de problemas de clasificación. Finalmente, se analizan los resultados del experimento
con imágenes de cáncer de mama que se desarrolla en el artículo [LPAMÁ+21].
Para ello harán falta conceptos de análisis de resultados de aprendizaje automático, que se
desarrollarán basándonos en [Gé17].
Con el análisis de este artículo, se alcanza el objetivo del trabajo, utilizando los conceptos
aprendidos de Inferencia Estadística, Informática, Análisis Funcional y Estadística Computacional
de un estudiante del Grado en Matemáticas para desarrollar la teoría de inferencia
variacional y procesos gaussianos. Desarrollada esta teoría, se aplica en aprendizaje automático,
en concreto en crowdsourcing, utilizando así los conocimientos del Grado en Matemáticas
para aproximarse a temas de investigación de actualidad en el contexto de la ciencia de datos.