Desarrollo de modelos de clasificación de imágenes histológicas basados en técnicas de crowdsourcing

Díaz-Malaguilla Puntas, Alberto

2021_Alberto_DMP_TFG.pdf (18.02Mb)

Identificadores

URI: http://hdl.handle.net/10481/69597

Exportar

Materia

Crowdsourcing

Inferencia estadística

Inferencia variacional

Matemáticas

Imágenes histológicas

Ciencia de datos

Date

2021

Sponsorship

Universidad de Granada. Facultad de Ciencias. Grado en Matemáticas. Curso académico 2020-2021

Abstract

The main subject of this work is to develop the theory needed to understand and analyze a classification experiment based on crowdsourcing and apply it to breast cancer histological images. First, we will introduce basic concepts of variational inference, based on [Bis06], [KF09] and [Pri12]. This is a quite advanced concept for a Mathematics Degree student. Because of that, we will start by introducing Bayesian inference before, based on [Was04] and [Bol07]. While Bayesian inference is explained, we get used to concepts such as prior distribution or posterior distribution, and a new way of estimation that is more general than maximum likelihood estimation, which has been widely explained during Mathematics Degree: maximum a posteriori estimation. With this background, we introduce basic concepts of variational inference: Kullback-Leibler divergence and the evidence lower bound, using concepts of Statistic Inference and Functional Analysis. Secondly, we will introduce basic concepts of Gaussian processes and apply them to regression, based on [RW06]. To understand them, we will explain Bayesian regression before. As we explain concepts such as basis function, we can comprehend Gaussian processes as models of distributions over functions. This will be useful for introducing regression using Gaussian processes. We will then explain supervised classification tasks using linear models. Thirdly, we will introduce the color normalization and color transfer problems, based on [RAGS01]. This chapter provides a description of steps that have to be taken before image classification. The algorithm explained will be used on real histological images extracted from the Digital Pathology Asociation repository, [DPA]. To conclude, we will use all what we have learned in the previous chapters to develop a classification model using scalable variational Gaussian processes, specifically on crowdsourcing. We will explain this based on [MARC+20].We will introduce the crowdsourcing problem as well as classification figures of merits used in machine learning, which are explained on [Gé17]. Finally, we will analyze the breast cancer experiment results from [LPAMÁ+21]. By analyzing this paper the main subject of this work has been achieved, since we have used Statistic Inference, Computational Statistics, programming, and Functional Analysis knowledge from Mathematics Degree, in order to understand variational inference and Gaussian processes theory. Given that, we have applied it to machine learning, especially to crowdsourcing. From the knowledge of a student from a Mathematics degree, we get to approach state-of-the-art data science methods.

El objetivo de este trabajo es desarrollar la teoría necesaria para entender y analizar un experimento de aprendizaje automático basado en crowdsourcing aplicado a imágenes histológicas de cáncer de mama. En primer lugar, desarrollaremos los conceptos básicos de inferencia variacional basándonos esencialmente en [Bis06], [KF09] y [Pri12]. Desde los conocimientos de Inferencia Estadística que tiene un estudiante del Grado en Matemáticas, el salto conceptual a la inferencia variacional puede ser grande. Es por eso que se desarrolla de manera intermedia la inferencia bayesiana, basándonos en [Was04] y [Bol07]. Durante el desarrollo de la inferencia bayesiana, conseguimos familiarizarnos con los conceptos de distribución a priori y distribución a posteriori, y una nueva forma de estimación que generaliza a la estimación máximo verosímil desarrollada durante el Grado en Matemáticas: la estimación máximo a posteriori. Hechas estas consideraciones, conseguimos desarrollar los conceptos básicos de inferencia variacional: la divergencia Kullback-Leibler y la cota inferior de la evidencia, utilizando conceptos de Inferencia Estadística junto a conceptos de Análisis Funcional. En segundo lugar, desarrollaremos los conceptos básicos de procesos gaussianos aplicados a regresión, basándonos en [RW06]. De nuevo, para desarrollarlos desde el conocimiento de un estudiante del Grado en Matemáticas se desarrolla en primer lugar la regresión desde la inferencia bayesiana. Así, conseguimos familiarizarnos con el concepto de función base, que nos permite entender los procesos gaussianos como modelos de distribución sobre un espacio de funciones. Utilizaremos esto para desarrollar regresión usando procesos gaussianos. Finalmente, se utiliza la teoría de modelos lineales desarrollada para introducir los problemas de clasificación supervisada. En tercer lugar, haremos una revisión del artículo de normalización de color [RAGS01]. Este capítulo da una idea de cómo es el proceso previo a la tarea de clasificación de imágenes, mediante desarrollos matemáticos sencillos. Aplicaremos el algoritmo planteado en imágenes histológicas extraídas del repositorio de la Digital Pathology Asociation [DPA]. Finalmente, en el cuarto capítulo, aplicamos todo lo desarrollado anteriormente. Desarrollaremos el modelo de clasificación por procesos gaussianos variacionales escalables en el marco del crowdsourcing. Para ello nos basaremos en el artículo [MARC+20]. Introducimos el problema del crowdsourcing, junto con algunos conceptos de aprendizaje automático en el contexto de problemas de clasificación. Finalmente, se analizan los resultados del experimento con imágenes de cáncer de mama que se desarrolla en el artículo [LPAMÁ+21]. Para ello harán falta conceptos de análisis de resultados de aprendizaje automático, que se desarrollarán basándonos en [Gé17]. Con el análisis de este artículo, se alcanza el objetivo del trabajo, utilizando los conceptos aprendidos de Inferencia Estadística, Informática, Análisis Funcional y Estadística Computacional de un estudiante del Grado en Matemáticas para desarrollar la teoría de inferencia variacional y procesos gaussianos. Desarrollada esta teoría, se aplica en aprendizaje automático, en concreto en crowdsourcing, utilizando así los conocimientos del Grado en Matemáticas para aproximarse a temas de investigación de actualidad en el contexto de la ciencia de datos.

Collections

TFG - Facultad de Ciencias. Sección de Matemáticas

Except where otherwise noted, this item's license is described as Atribución-NoComercial-SinDerivadas 3.0 España