dc.contributor.advisor | Fernández Hilario, Alberto Luis | |
dc.contributor.advisor | Herrera Triguero, Francisco | |
dc.contributor.author | Pascual-Triana, José Daniel | |
dc.contributor.other | Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la Comunicación | es_ES |
dc.date.accessioned | 2024-09-24T10:47:57Z | |
dc.date.available | 2024-09-24T10:47:57Z | |
dc.date.issued | 2024 | |
dc.date.submitted | 2024-07-12 | |
dc.identifier.citation | José Daniel Pascual Tierna. Estudio de los aspectos éticos en Inteligencia Artificial y Machine Learning: “Data Fairness”, interpretabilidad y explicabilidad en los modelos de aprendizaje. Granada: Universidad de Granada, 2024. [https://hdl.handle.net/10481/94995] | es_ES |
dc.identifier.isbn | 9788411954457 | |
dc.identifier.uri | https://hdl.handle.net/10481/94995 | |
dc.description.abstract | En un mundo donde las decisiones impulsadas por Inteligencia Artificial influyen cada vez
más en nuestras vidas, la confianza del usuario en este tipo de sistemas obtenidos mediante
aprendizaje automático es crucial. Así, la Inteligencia Artificial se fortalece cuando sus decisiones
son comprensibles y están alineadas con principios éticos sólidos. En este contexto,
el desarrollo y la implementación de la Inteligencia Artificial Fiable no solo son imperativos
tecnológicos, sino también éticos, de transparencia y explicabilidad, ya que promueven una
interacción más segura y responsable entre la tecnología y la sociedad.
Para promover estas características surge, entre otros, el campo de La Inteligencia Artificial
Centrada en los Datos. Sus fundamentos están basados en promover conjuntos de datos
de calidad que a su vez permitan obtener mejores modelos a partir de éstos. Como se comentó
anteriormente, para establecer la confianza en los modelos de aprendizaje automático,
es necesario generar no solo modelos eficaces, si no que además cumplan reglas de equidad,
responsabilidad, transparencia y ética. Por tanto, entender los datos y actuar sobre los
mismos debe redundar positivamente en la calidad y propiedades deseadas de los modelos.
Las métricas de complejidad de datos son herramientas útiles en la Inteligencia Artificial
Centrada en los Datos, ya que permiten estimar a priori cuán difícil de clasificar va a ser un
conjunto de datos y, con ello, cuán efectivo va a ser el modelo o clasificador, o si es necesario
utilizar paradigmas de aprendizaje más complejos que dificultarían la interpretación de las
futuras decisiones del sistema. Así, estas métricas permiten la caracterización matemática
de los datos en función de sus propiedades intrínsecas.
También existen otros factores importantes para la mejora de los datos y los modelos que
van más allá de las métricas. Según los atributos presentes en un conjunto de datos, pueden
existir restricciones sobre cómo se pueden emplear o sobre el resultado de la clasificación.
Este es el caso de los conjuntos de datos que incluyen, directa o indirectamente, datos personales
que puedan llevar a la existencia de discriminación, siendo es deseable que los modelos
estén libres de posibles sesgos.
De acuerdo a lo anterior se justifica que la complejidad general de un conjunto de datos
suele tener un impacto directo sobre la bondad de la clasificación. En concreto, el desbalance
y el solapamiento de las clases o de grupos de los datos no sólo dificulta la decisión del
clasificador, sino que puede fomentar la aparición de sesgos en favor de la clase o grupo
mayoritario. La morfología de un conjunto de datos, es decir, la modelización matemática de la forma
de las fronteras entre clases o grupos del mismo, puede ayudar a estimar este solapamiento
(que, de otra manera, es difícil de cuantificar) y, con ello, a detectar y solucionar posibles
problemas de equidad. Por otro lado, dado que la morfología estudia la forma de las fronteras,
también puede aportar beneficios a la hora de explicar modelos complicados.
Pese a su potencial utilidad y excelentes propiedades, el uso de la morfología para mejorar
la clasificación supervisada es todavía un nicho por explorar. La hipótesis principal de
esta tesis es que, dada la relación que tiene con la equidad, la transparencia y la ética, la
complejidad de datos, medida a partir de la morfología, puede servir como punto de partida
para trabajar en pos de todas ellas. En concreto, se propone el uso de la morfología de las
clases y los grupos existentes en el espacio muestral para medir propiedades intrínsecas de
los datos que permitan detectar el solapamiento, decidir cómo solucionar los problemas de
desbalance y sesgos o encontrar pautas para explicar los modelos resultantes.
El objetivo principal de esta tesis es el uso de métodos de morfología basados en la cobertura
de grupos mediante bolas para estimar la complejidad y mejorar la clasificación supervisada.
Para lograrlo, se divide a su vez en 3 subobjetivos:
1. Determinar qué métricas sirven para estimar la complejidad de conjuntos de datos
con solapamiento y desbalance de clases. Se ha propuesto una nueva métrica de complejidad
basada en la morfología del conjunto de datos, Overlap Number of Balls, que
destaca en estimación de la complejidad real y del solapamiento.
2. Proponer modelos acordes a los requisitos de equidad, responsabilidad, transparencia
y ética. Para ello, se ha propuesto un nuevo método de explicación de modelos
denominado Overlap Number of Balls Model-Agnostic CounterFactuals. Este método
aprovecha la morfología de las clases para explicar las predicciones de un clasificador
y permite a los usuarios saber cómo modificar su resultado si están descontentos con
él, favoreciendo la transparencia.
3. Desarrollar métodos de clasificación que mantengan la equidad. Para ello, se ha utilizado
una estrategia basada en Overlap Number of Balls para realizar un preprocesamiento
guiado en las zonas que favorezcan sesgos discriminatorios, basado en la
morfología de los subgrupos. Con ello, se pueden entrenar clasificadores con mayor
equidad, con un mínimo impacto en su eficacia. Por tanto, se considera que la tesis aborda todos los objetivos propuestos con éxito. Se
pudo identificar un nicho por explorar, el uso de la morfología, y encontrar aplicaciones
en varios ámbitos de la clasificación supervisada. Así nacieron 3 propuestas: una métrica
de complejidad, un método de explicación de modelos y otro de preprocesamiento guiado,
que comparten la morfología de los grupos (clases, variables protegidas o sus combinaciones)
como hilo conductor y que han demostrado aportar buenos resultados. Quedaría así
corroborada la alta utilidad que puede llegar a tener el aprovechamiento de la morfología en
los problemas de clasificación y, en particular, de cara al cumplimiento de los requisitos de
equidad, transparencia y ética. | es_ES |
dc.description.abstract | In a world where decisions driven by Artificial Intelligence increasingly influence our lives,
user confidence in such machine-learning systems is crucial. Thus, Artificial Intelligence is
strengthened when its decisions are understandable and aligned with sound ethical principles.
In this context, the development and implementation of Trustworthy Artificial Intelligence
are not only technological imperatives, but also of ethics, transparency and explainablility,
as they encourage a safer and more responsible interaction between technology and
society.
The field of Data-Centric Artificial Intelligence, among others, emerged to foster these
characteristics. Its foundations are based on promoting quality datasets that in turn allow
better models to be obtained from them. As mentioned above, in order to establish trust in
machine learning models, it is necessary to generate not only effective models, but also models
that comply with the rules of fairness, accountability, transparency and ethics. Therefore,
understanding the data and acting on it should have a positive impact on the quality and desired
properties of the models.
Data complexity metrics are useful tools in Data-Centric Artificial Intelligence, since
they allow estimating a priori how difficult a dataset is going to be to classify and, thus,
how effective the model or classifier is going to be, or whether using more complex learning
paradigms is necessary even though that would make it difficult to interpret future system
decisions. Thus, these metrics allow the mathematical characterization of the data in terms
of their intrinsic properties.
There are also other important factors for data and model improvement that go beyond
metrics. Depending on the attributes present in a dataset, there may be restrictions on how
they can be employed or on the classification result. This is the case for datasets that include,
directly or indirectly, personal data that may lead to discrimination, as models should be free
of possible biases.
According to the above, it is justified that the overall complexity of a dataset usually has
a direct impact on the goodness of classification. In particular, the imbalance and overlap of
classes or groups in the data not only makes the classifier’s decision more difficult, but may
also encourage the emergence of biases in favor of the majority class or group.
The morphology of a data set, i.e., the mathematical modeling of the shape of the boundaries between classes or groups in the dataset, can help to estimate this overlap (which is
otherwise difficult to quantify) and, thereby, to detect and solve possible equity problems.
Moreover, since morphology studies the shape of boundaries, it can also prove beneficial in
explaining complicated models.
Despite its potential utility and excellent properties, the use of morphology to improve
supervised classification is still a niche to be explored. The main hypothesis of this thesis
is that, given its relationship with fairness, transparency and ethics, data complexity, when
measured via morphology, can serve as a starting point to work towards all of them. Specifically,
we propose to use the morphology of the classes and groups existing in the data manifold
to measure intrinsic properties of the data, which would allow the detection of overlap
between them, the selection of techniques to solve problems of imbalance and bias, or the
finding of guidelines to explain the resulting models.
The main objective of this Thesis is the use of morphology methods based on group coverage
using balls in order to estimate data and model complexity and to improve supervised
classification. To achieve this, it is further divided into 3 sub-objectives.
1. Determining which metrics are useful for estimating the complexity of datasets with
overlap and class imbalance. A new complexity metric based on dataset morphology,
Overlap Number of Balls, which excels in estimating true complexity and overlap, is
proposed.
2. Proposing models in accordance with the requirements of fairness, accountability,
transparency and ethics. To this end, a new model explanation method called Overlap
Number of Balls Model-Agnostic CounterFactuals is proposed. This method takes
advantage of class morphology to explain the predictions of a classifier and allows
users to know how to modify their result if they are dissatisfied with it, favoring transparency.
3. Developing classification methods that maintain fairness. To this end, a strategy based
on Overlap Number of Balls is used to perform guided preprocessing in areas that favor
discriminatory biases, based on the morphology of the subgroups. By doing so,
classifiers can be trained more fairly, with minimal impact on their efficiency. Therefore, the Thesis is considered to address all the proposed objectives successfully. It
was possible to identify an unexplored niche, the use of morphology, and to find applications
in several areas of supervised classification. Thus 3 proposals were born: a complexity
metric, a model explanation method and a guided preprocessing method, which share
the morphology of groups (classes, protected variables or their combinations) as a unifying
thread that has proven to produce good results. This would thus corroborate the high utility
that the use of morphology can have in classification problems and, in particular, in meeting
the requirements of fairness, transparency and ethics. | es_ES |
dc.description.sponsorship | Tesis Univ. Granada. | es_ES |
dc.description.sponsorship | Proyectos de Investigación de Intensificación con referencias PRII2018-02, PP2019.PRI.I.07 y PP2019.PRI.I.08 | es_ES |
dc.description.sponsorship | Catedra Tecnalia de Inteligencia Artificial con referencia CÁTEDRA TECNALIA | es_ES |
dc.description.sponsorship | Proyecto Nacional PID2020-119478GB-I00 del Ministerio de Ciencia y Tecnología | es_ES |
dc.format.mimetype | application/pdf | en_US |
dc.language.iso | spa | es_ES |
dc.publisher | Universidad de Granada | es_ES |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 Internacional | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | * |
dc.title | Estudio de los aspectos éticos en Inteligencia Artificial y Machine Learning: “Data Fairness”, interpretabilidad y explicabilidad en los modelos de aprendizaje | es_ES |
dc.type | doctoral thesis | es_ES |
europeana.type | TEXT | en_US |
europeana.dataProvider | Universidad de Granada. España. | es_ES |
europeana.rights | http://creativecommons.org/licenses/by-nc-nd/3.0/ | en_US |
dc.rights.accessRights | open access | es_ES |
dc.type.hasVersion | VoR | es_ES |