Modelos de NLP en el ámbito médico: Codificación automática de enfermedades y procedimientos
Identificadores
URI: https://hdl.handle.net/10481/103784Metadatos
Afficher la notice complèteEditorial
Universidad de Granada
Materia
NLP LLM NER GPT Prompt Engineering Hugging Face
Date
2025Patrocinador
Universidad de Granada. Escuela Técnica Superior de Ingenierías Informática y de Telecomunicación. Trabajo Fin de Grado. Ingeniería Informática. Curso académico 2023/2024Résumé
Desde la aparición de la inteligencia artificial, hemos sido testigos del gran avance que ha supuesto en todos los aspectos de nuestra vida y en diferentes sectores profesionales. De entre todos los campos que engloba, uno de los más interesantes e importantes es el procesamiento del lenguaje natural (NLP), marcado en los últimos años por los modelos de lenguaje de gran tamaño (LLM). El objetivo final de estos es la comprensión y generación de lenguaje de una manera lo más parecida posible a la humana, empleando algoritmos de aprendizaje profundo entrenados con una gran cantidad de datos de texto, o corpus. Uno de los ejemplos más conocidos son la serie de modelos GPT de OpenAI, usados en ChatGPT, o Gemini, de Google.
A nivel profesional, encontramos una enorme variedad de aplicaciones: desde análisis de sentimientos en redes sociales, servicio al cliente mediante asistentes o chatbots, traducción automática, reconocimiento de voz como Siri o Alexa, análisis de datos, etc. De entre todos ellos, este proyecto se centrará en el ámbito médico, en donde estos modelos son cada vez más utilizados.
Por tanto, se propone el empleo y estudio de diversos modelos NLP de cara a la clasificación automática de enfermedades y tratamientos. Para ello, nos enfocaremos en una de las ramas fundamentales del NLP, NER (Named Entity Recognition). Mediante ella, seremos capaces de identificar palabras como entidades y clasificarlas en categorías a partir de diversos casos clínicos, proporcionados dentro de un corpus, de una manera lo más precisa posible.
Además, se discutirán los desafíos y beneficios potenciales que suponen. Se explorarán varios modelos de Hugging Face, entre los cuales destacamos GLiNER, uno de los más recientes, junto con zero-shot learning. Finalmente, se realizará un análisis y comparación de los resultados obtenidos mediante este proceso con aquellos generados por modelos de lenguaje generativos y otros modelos NER más tradicionales. Since the appearance of artificial intelligence, we have witnessed the great
advance it has brought in all aspects of our lives and different professional
sectors. Of all the fields it encompasses, one of the most interesting and
important is natural language processing (NLP), marked in recent years by
large language models (LLM). The ultimate goal of these is the compression
and generation of language in a way that is as close to human as possible,
using deep learning algorithms trained with a large amount of text data,
corpus. One of the best-known examples is the series of GPT models from
OpenAI, used in ChatGPT, or Gemini, from Google.
On a professional level, we find a huge variety of applications. From sentiment
analysis on social networks, customer service through assistants or
chatbots, automatic translation, voice recognition like Siri or Alexa, data
analysis, etc. Among all of them, this project will focus on the medical field
where these models are increasingly used.
Therefore, the use and study of various NLP models is proposed for
the automatic classification of diseases and treatments. To do this, we will
focus on one of the fundamental branches of NLP, NER (Named Entity
Recognition). Through it we will be able to identify and classify entities
into categories from various clinical cases, provided within a corpus, in the
most precise way possible. In addition, the challenges and potential benefits
they pose will be discussed. Several Hugging Face models will be explored,
among which we highlight GLiNER, one of the most recent, along with zeroshot
learning. Finally, an analysis and comparison of the results obtained
through this process will be carried out with those generated by generative
language models and other more traditional NER models.