Afficher la notice abrégée

dc.contributor.advisorFernández Hilario, Alberto Luis 
dc.contributor.advisorHerrera Triguero, Francisco 
dc.contributor.authorPascual-Triana, José Daniel
dc.contributor.otherUniversidad de Granada. Programa de Doctorado en Tecnologías de la Información y la Comunicaciónes_ES
dc.date.accessioned2024-09-24T10:47:57Z
dc.date.available2024-09-24T10:47:57Z
dc.date.issued2024
dc.date.submitted2024-07-12
dc.identifier.citationJosé Daniel Pascual Tierna. Estudio de los aspectos éticos en Inteligencia Artificial y Machine Learning: “Data Fairness”, interpretabilidad y explicabilidad en los modelos de aprendizaje. Granada: Universidad de Granada, 2024. [https://hdl.handle.net/10481/94995]es_ES
dc.identifier.isbn9788411954457
dc.identifier.urihttps://hdl.handle.net/10481/94995
dc.description.abstractEn un mundo donde las decisiones impulsadas por Inteligencia Artificial influyen cada vez más en nuestras vidas, la confianza del usuario en este tipo de sistemas obtenidos mediante aprendizaje automático es crucial. Así, la Inteligencia Artificial se fortalece cuando sus decisiones son comprensibles y están alineadas con principios éticos sólidos. En este contexto, el desarrollo y la implementación de la Inteligencia Artificial Fiable no solo son imperativos tecnológicos, sino también éticos, de transparencia y explicabilidad, ya que promueven una interacción más segura y responsable entre la tecnología y la sociedad. Para promover estas características surge, entre otros, el campo de La Inteligencia Artificial Centrada en los Datos. Sus fundamentos están basados en promover conjuntos de datos de calidad que a su vez permitan obtener mejores modelos a partir de éstos. Como se comentó anteriormente, para establecer la confianza en los modelos de aprendizaje automático, es necesario generar no solo modelos eficaces, si no que además cumplan reglas de equidad, responsabilidad, transparencia y ética. Por tanto, entender los datos y actuar sobre los mismos debe redundar positivamente en la calidad y propiedades deseadas de los modelos. Las métricas de complejidad de datos son herramientas útiles en la Inteligencia Artificial Centrada en los Datos, ya que permiten estimar a priori cuán difícil de clasificar va a ser un conjunto de datos y, con ello, cuán efectivo va a ser el modelo o clasificador, o si es necesario utilizar paradigmas de aprendizaje más complejos que dificultarían la interpretación de las futuras decisiones del sistema. Así, estas métricas permiten la caracterización matemática de los datos en función de sus propiedades intrínsecas. También existen otros factores importantes para la mejora de los datos y los modelos que van más allá de las métricas. Según los atributos presentes en un conjunto de datos, pueden existir restricciones sobre cómo se pueden emplear o sobre el resultado de la clasificación. Este es el caso de los conjuntos de datos que incluyen, directa o indirectamente, datos personales que puedan llevar a la existencia de discriminación, siendo es deseable que los modelos estén libres de posibles sesgos. De acuerdo a lo anterior se justifica que la complejidad general de un conjunto de datos suele tener un impacto directo sobre la bondad de la clasificación. En concreto, el desbalance y el solapamiento de las clases o de grupos de los datos no sólo dificulta la decisión del clasificador, sino que puede fomentar la aparición de sesgos en favor de la clase o grupo mayoritario. La morfología de un conjunto de datos, es decir, la modelización matemática de la forma de las fronteras entre clases o grupos del mismo, puede ayudar a estimar este solapamiento (que, de otra manera, es difícil de cuantificar) y, con ello, a detectar y solucionar posibles problemas de equidad. Por otro lado, dado que la morfología estudia la forma de las fronteras, también puede aportar beneficios a la hora de explicar modelos complicados. Pese a su potencial utilidad y excelentes propiedades, el uso de la morfología para mejorar la clasificación supervisada es todavía un nicho por explorar. La hipótesis principal de esta tesis es que, dada la relación que tiene con la equidad, la transparencia y la ética, la complejidad de datos, medida a partir de la morfología, puede servir como punto de partida para trabajar en pos de todas ellas. En concreto, se propone el uso de la morfología de las clases y los grupos existentes en el espacio muestral para medir propiedades intrínsecas de los datos que permitan detectar el solapamiento, decidir cómo solucionar los problemas de desbalance y sesgos o encontrar pautas para explicar los modelos resultantes. El objetivo principal de esta tesis es el uso de métodos de morfología basados en la cobertura de grupos mediante bolas para estimar la complejidad y mejorar la clasificación supervisada. Para lograrlo, se divide a su vez en 3 subobjetivos: 1. Determinar qué métricas sirven para estimar la complejidad de conjuntos de datos con solapamiento y desbalance de clases. Se ha propuesto una nueva métrica de complejidad basada en la morfología del conjunto de datos, Overlap Number of Balls, que destaca en estimación de la complejidad real y del solapamiento. 2. Proponer modelos acordes a los requisitos de equidad, responsabilidad, transparencia y ética. Para ello, se ha propuesto un nuevo método de explicación de modelos denominado Overlap Number of Balls Model-Agnostic CounterFactuals. Este método aprovecha la morfología de las clases para explicar las predicciones de un clasificador y permite a los usuarios saber cómo modificar su resultado si están descontentos con él, favoreciendo la transparencia. 3. Desarrollar métodos de clasificación que mantengan la equidad. Para ello, se ha utilizado una estrategia basada en Overlap Number of Balls para realizar un preprocesamiento guiado en las zonas que favorezcan sesgos discriminatorios, basado en la morfología de los subgrupos. Con ello, se pueden entrenar clasificadores con mayor equidad, con un mínimo impacto en su eficacia. Por tanto, se considera que la tesis aborda todos los objetivos propuestos con éxito. Se pudo identificar un nicho por explorar, el uso de la morfología, y encontrar aplicaciones en varios ámbitos de la clasificación supervisada. Así nacieron 3 propuestas: una métrica de complejidad, un método de explicación de modelos y otro de preprocesamiento guiado, que comparten la morfología de los grupos (clases, variables protegidas o sus combinaciones) como hilo conductor y que han demostrado aportar buenos resultados. Quedaría así corroborada la alta utilidad que puede llegar a tener el aprovechamiento de la morfología en los problemas de clasificación y, en particular, de cara al cumplimiento de los requisitos de equidad, transparencia y ética.es_ES
dc.description.abstractIn a world where decisions driven by Artificial Intelligence increasingly influence our lives, user confidence in such machine-learning systems is crucial. Thus, Artificial Intelligence is strengthened when its decisions are understandable and aligned with sound ethical principles. In this context, the development and implementation of Trustworthy Artificial Intelligence are not only technological imperatives, but also of ethics, transparency and explainablility, as they encourage a safer and more responsible interaction between technology and society. The field of Data-Centric Artificial Intelligence, among others, emerged to foster these characteristics. Its foundations are based on promoting quality datasets that in turn allow better models to be obtained from them. As mentioned above, in order to establish trust in machine learning models, it is necessary to generate not only effective models, but also models that comply with the rules of fairness, accountability, transparency and ethics. Therefore, understanding the data and acting on it should have a positive impact on the quality and desired properties of the models. Data complexity metrics are useful tools in Data-Centric Artificial Intelligence, since they allow estimating a priori how difficult a dataset is going to be to classify and, thus, how effective the model or classifier is going to be, or whether using more complex learning paradigms is necessary even though that would make it difficult to interpret future system decisions. Thus, these metrics allow the mathematical characterization of the data in terms of their intrinsic properties. There are also other important factors for data and model improvement that go beyond metrics. Depending on the attributes present in a dataset, there may be restrictions on how they can be employed or on the classification result. This is the case for datasets that include, directly or indirectly, personal data that may lead to discrimination, as models should be free of possible biases. According to the above, it is justified that the overall complexity of a dataset usually has a direct impact on the goodness of classification. In particular, the imbalance and overlap of classes or groups in the data not only makes the classifier’s decision more difficult, but may also encourage the emergence of biases in favor of the majority class or group. The morphology of a data set, i.e., the mathematical modeling of the shape of the boundaries between classes or groups in the dataset, can help to estimate this overlap (which is otherwise difficult to quantify) and, thereby, to detect and solve possible equity problems. Moreover, since morphology studies the shape of boundaries, it can also prove beneficial in explaining complicated models. Despite its potential utility and excellent properties, the use of morphology to improve supervised classification is still a niche to be explored. The main hypothesis of this thesis is that, given its relationship with fairness, transparency and ethics, data complexity, when measured via morphology, can serve as a starting point to work towards all of them. Specifically, we propose to use the morphology of the classes and groups existing in the data manifold to measure intrinsic properties of the data, which would allow the detection of overlap between them, the selection of techniques to solve problems of imbalance and bias, or the finding of guidelines to explain the resulting models. The main objective of this Thesis is the use of morphology methods based on group coverage using balls in order to estimate data and model complexity and to improve supervised classification. To achieve this, it is further divided into 3 sub-objectives. 1. Determining which metrics are useful for estimating the complexity of datasets with overlap and class imbalance. A new complexity metric based on dataset morphology, Overlap Number of Balls, which excels in estimating true complexity and overlap, is proposed. 2. Proposing models in accordance with the requirements of fairness, accountability, transparency and ethics. To this end, a new model explanation method called Overlap Number of Balls Model-Agnostic CounterFactuals is proposed. This method takes advantage of class morphology to explain the predictions of a classifier and allows users to know how to modify their result if they are dissatisfied with it, favoring transparency. 3. Developing classification methods that maintain fairness. To this end, a strategy based on Overlap Number of Balls is used to perform guided preprocessing in areas that favor discriminatory biases, based on the morphology of the subgroups. By doing so, classifiers can be trained more fairly, with minimal impact on their efficiency. Therefore, the Thesis is considered to address all the proposed objectives successfully. It was possible to identify an unexplored niche, the use of morphology, and to find applications in several areas of supervised classification. Thus 3 proposals were born: a complexity metric, a model explanation method and a guided preprocessing method, which share the morphology of groups (classes, protected variables or their combinations) as a unifying thread that has proven to produce good results. This would thus corroborate the high utility that the use of morphology can have in classification problems and, in particular, in meeting the requirements of fairness, transparency and ethics.es_ES
dc.description.sponsorshipTesis Univ. Granada.es_ES
dc.description.sponsorshipProyectos de Investigación de Intensificación con referencias PRII2018-02, PP2019.PRI.I.07 y PP2019.PRI.I.08es_ES
dc.description.sponsorshipCatedra Tecnalia de Inteligencia Artificial con referencia CÁTEDRA TECNALIAes_ES
dc.description.sponsorshipProyecto Nacional PID2020-119478GB-I00 del Ministerio de Ciencia y Tecnologíaes_ES
dc.format.mimetypeapplication/pdfen_US
dc.language.isospaes_ES
dc.publisherUniversidad de Granadaes_ES
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.titleEstudio de los aspectos éticos en Inteligencia Artificial y Machine Learning: “Data Fairness”, interpretabilidad y explicabilidad en los modelos de aprendizajees_ES
dc.typedoctoral thesises_ES
europeana.typeTEXTen_US
europeana.dataProviderUniversidad de Granada. España.es_ES
europeana.rightshttp://creativecommons.org/licenses/by-nc-nd/3.0/en_US
dc.rights.accessRightsopen accesses_ES
dc.type.hasVersionVoRes_ES


Fichier(s) constituant ce document

[PDF]

Ce document figure dans la(les) collection(s) suivante(s)

  • Tesis
    Tesis leídas en la Universidad de Granada

Afficher la notice abrégée

Attribution-NonCommercial-NoDerivatives 4.0 Internacional
Excepté là où spécifié autrement, la license de ce document est décrite en tant que Attribution-NonCommercial-NoDerivatives 4.0 Internacional