dc.description.abstract | A lo largo de todos estos años, en los que la tecnología ha ido tomando
cada vez más peso en nuestras vidas, se han ido generando gran cantidad
de datos almacenados en diferentes bases de datos por todo el mundo. Este
hecho ha provocado que la minería de datos sea uno de los ámbitos que
mayor interés suscita en los últimos años. Y es que las técnicas de minería
de datos han sido aplicadas en una gran variedad de problemas con el fi n
de extraer conocimiento útil e interesante de todos los datos que cada día
se van almacenando.
Entre todas las técnicas de minería de datos existentes, aquellas que tratan
de extraer reglas de asociación son de las más utilizadas en la actualidad,
gracias a su efi cacia para la extracción de conocimiento y a su facilidad para
comprenderlo. Estas técnicas permiten extraer asociaciones entre los ítems
o variables almacenados en una base de datos. Por ejemplo, en una base de
datos de un supermercado con información sobre las compras de los clientes,
estas técnicas serían capaces de extraer asociaciones entre los productos que
suelen comprarse juntos de forma frecuente (ej: fpan, lecheg Ñ fcaf eg; que
equivale a: si compra pan y leche entonces también se comprara café).
Las técnicas de extracción de reglas de asociación permiten la obtención
de conocimiento interesante que ocurre de forma frecuente, pero otro aspecto
fundamental que debemos tener en cuenta es la información temporal que
tenemos en los datos. En la mayor parte de problemas reales, el conocimiento
no es correcto o valido para siempre, sino que a lo largo del tiempo pueden
producirse cambios que afecten a dicho conocimiento. Esos cambios pueden
acabar en conocimiento que acabe siendo incorrecto o poco útil. Igualmente,
podemos encontrar bases de datos en las que no se detecten ciertas relaciones
porque estas se producen únicamente en ciertos intervalos de tiempo. Por
ejemplo, ciertos productos solamente se venden de forma frecuente en ciertos
periodos de tiempo, como los helados en verano. Por lo que la detección de asociaciones entre dichos productos no se producirá al aplicar técnicas de
extracción de reglas de asociación que no tienen en cuenta el tiempo.
En los últimos años, los investigadores han comenzado a darse cuenta de
la importancia que tiene la componente temporal en el conocimiento que se
extrae, lo que ha producido que se hayan desarrollado nuevas técnicas que
tratan de incluir dicha componente en el proceso de extracción, tratando
así de extraer reglas más interesantes y útiles para el usuario. Aunque el
campo de extracción de reglas de asociación temporales se encuentra en
pleno crecimiento, la novedad de este ámbito introduce algunos problemas.
Se ha detectado la falta de un marco de trabajo bien definido, con una
terminología estándar y una clasificación clara de las diferentes técnicas que
podemos encontrar en la literatura especializada. En la actualidad se utilizan
diferentes términos para referirse a lo mismo, lo que dificulta la búsqueda
y comparación de propuestas existentes. Esto dificulta su expansión y su
aplicación en diferentes problemas reales.
Aun teniendo en cuenta que en los últimos años se ha producido un
aumento de propuestas de técnicas de extracción de reglas de asociación
temporales, muchas de ellas son técnicas basadas en algoritmos clásicos de
extracción de reglas de asociación. Estos algoritmos suelen adaptarse para tener en cuenta la componente temporal de diferentes formas. El uso
de técnicas clásicas adaptadas junto al uso de medidas de calidad clásicas
para evaluar las reglas nos sugiere que es necesario el desarrollo de nuevas
propuestas que aprovechen las bondades de los algoritmos actuales en el
proceso de extracción, además del desarrollo de nuevas medidas de calidad
que permitan evaluar lo interesante o útil que es una regla para el usuario
en función del problema.
Por todo lo anterior, en esta tesis se propone una taxonomía de dos niveles que permite clasificar las propuestas de extracción de reglas de asociación
temporales existentes en la literatura, proporcionando así un marco de trabajo bien definido que permita a los investigadores conocer las propuestas
existentes y detectar los problemas abiertos en los que puedan aportar nuevas
soluciones. También se propone un nuevo algoritmo evolutivo multiobjetivo
para extracción de reglas de asociación temporales, HAUS-rules, que hace
uso de una medida de utilidad media de las reglas para guiar el proceso de
búsqueda, lo que permite obtener reglas más interesantes, útiles y fáciles de
comprender por el usuario. Por último, se aplica nuestra nueva propuesta
en un problema bio-sanitario real para el análisis temporal sobre un estudio
longitudinal in vivo de la expresión genética en tejido adiposo humano. | es_ES |