Técnicas Multivariantes para el Análisis de Datos Genómicos
Identificadores
URI: https://hdl.handle.net/10481/91059Metadatos
Mostrar el registro completo del ítemMateria
Análisis clúster Cluster analysis Análisis de componentes principales Principal component analysis Bioconductor Datos genómicos Genomic data RNA-seq
Fecha
2024-05-01Patrocinador
Todo el material desarrollado en este libro es propiedad intelectural de David Suárez González y José Luis Romero Béjar. Este material está protegido por la Licencia Creative Commons CC BY-NC-ND que permite "descargar las obras y compartirlas con otras personas, siempre que se reconozca su autoría, pero no se pueden cambiar de ninguna manera ni se pueden utilizar comercialmente".Resumen
El texto que aquí se presenta es una introducción muy general a las distintas técnicas multivariantes, que son utilizadas de forma ususal, en el contexto del tratamiento de datos genómicos. En este sentido se desarrollan aspectos formales y aplicados del análisis de componentes principales para la reducción de la dimensión y, del análisis clúster como técnica de aprendizaje no supervisado. Teniendo en cuenta el objetivo subyacente de aplicar estas técnicas para el análisis de datos genómicos, se realiza una revisión general del estado del arte en este contexto. Se introducen las distintas estructuras de almacenamiento de este tipo de datos, y se describen en detalle los objetivos del proyecto GEO (Gene Expression Omnibus) como repositorio de datos de este tipo en abierto, así como del proyecto Bioconductor que ofrece herramientas en lenguaje R y Python para un manejo óptimo de estas estructuras de datos y para la aplicación de las distintas técnicas multivariantes introducidas en este trabajo. Finalmente se realiza una aplicación práctica con lenguaje R que ilustra como cargar estructuras RNA-seq y hacer un tratamiento y análisis adecuado para obtener conclusiones de interés.
Es evidente que en este trabajo confluyen tres campos bien diferenciados como son la Informática, las Matemáticas y la Biología. Es por esto que dependiendo del interés del lector habrá capítulos que podrá leer con más detalle y otros que podrá obviar. En este sentido un lector interesado sólo en las cuestiones formales desde el punto de vista matemático de las distintas técnicas multivariantes introducidas, independientemente del contexto donde se apliquen, no podrá obviar la lectura de la Parte II, en concreto del capítulo 5. Un lector más interesado en la parte biológica de los contenidos de este libro encontrará de interés la Parte I, en concreto los capítulos 3 y 4, donde sin ser pretenciosos se realiza un introducción al problema estadístico del tratamiento de datos omicos pasando, en primer lugar, por la evolución y el estado del arte en este contexto. Finalmente un lector, interesado en los aspectos computacionales para el tratamiento de estructuras de datos RNA-seq en este contexto, encontrará de gran utilidad la Parte II de este libro, en concreto los capítulos 6, 7 y 8, además de la Parte IV referida a una aplicación práctica desarrollada en el cápítulo 9. The text presented here is a very general introduction to the different multivariate techniques that are commonly used in the context of genomic data processing. In this sense, formal and applied aspects of principal component analysis for dimensionality reduction and cluster analysis as an unsupervised learning technique are developed. Considering the underlying objective of applying these techniques for genomic data analysis, a general review of the state of the art in this context is performed. The different storage structures for this type of data are introduced, and the objectives of the GEO (Gene Expression Omnibus) project as an open repository of this type of data are described in detail, as well as the Bioconductor project, which offers tools in R and Python language for optimal management of these data structures and for the application of the different multivariate techniques introduced in this work. Finally, a practical application with R language is carried out to illustrate how to load RNA-seq structures and carry out an adequate treatment and analysis to obtain conclusions of interest.
It is evident that this work brings together three well-differentiated fields such as Computer Science, Mathematics and Biology. For this reason, depending on the reader's interest, there will be chapters that can be read in more detail and others that can be skipped. In this sense, a reader interested only in the formal questions from the mathematical point of view of the different multivariate techniques introduced, independently of the context where they are applied, will not be able to avoid reading Part II, specifically Chapter 5. A reader more interested in the biological part of the contents of this book will find of interest Part I, specifically Chapters 3 and 4, where, without being pretentious, an introduction to the statistical problem of omics data processing is made, going first of all through the evolution and the state of the art in this context. Finally, a reader interested in the computational aspects for the processing of RNA-seq data structures in this context will find Part II of this book very useful, in particular chapters 6, 7 and 8, in addition to Part IV, which refers to a practical application developed in chapter 9.