Diseño e Implementación de un Clúster HPC con Automatización del Despliegue de Tareas de Cómputo Intensivo

Aquino Brítez, Sergio

SergioAquino.pdf (5.782Mb)

Identificadores

URI: https://hdl.handle.net/10481/106252

Exportar

Editorial

Universidad de Granada

Director

Guerrero Contreras, Gabriel José

Fecha

2025

Patrocinador

Trabajo Fin de Máster (TFM) del Máster en Gestión y Tecnologías de Procesos de Negocio (MGTPN) de la Universidad de Granada (UGR) – Curso Académico 2024/2025

Resumen

En campos como la investigación científica, la docencia y diversas aplicaciones profesionales, se requieren capacidades computacionales superiores a las de estaciones de trabajo convencionales. La Computación de Altas Prestaciones (HPC, High Performance Computing) permite ejecutar cargas intensivas, como simulaciones numéricas, análisis de grandes volúmenes de datos y entrenamiento de modelos de inteligencia artificial. Sin embargo, su adopción presenta barreras técnicas y económicas en contextos con recursos limitados, debido a la complejidad de configuración, los requerimientos de hardware y la ausencia de mecanismos de automatización accesibles. Este Trabajo Fin de Máster (TFM) presenta el diseño e implementación de un clúster HPC local virtualizado y basado en software libre. La propuesta está orientada a entornos con recursos limitados y busca reducir la complejidad operativa mediante una herramienta multiplataforma que facilita el uso remoto del sistema desde estaciones cliente. La arquitectura implementada se basa en el modelo Beowulf y está compuesta por un nodo principal y tres nodos de cómputo, todos virtualizados sobre un único host físico. El sistema operativo es Rocky Linux 8.10. La infraestructura incluye Slurm para la gestión de recursos, FreeIPA para el control de identidades, NFS para el almacenamiento compartido, EasyBuild para el despliegue de aplicaciones, Ganglia para la monitorización y Open OnDemand como interfaz de acceso remoto. La herramienta desarrollada permite automatizar tareas clave como la sincronización de archivos, la preparación de entornos y el envío y seguimiento de cargas al planificador. Esta funcionalidad busca reducir la complejidad de interacción con el clúster, proporcionando una interfaz simple y eficiente para usuarios sin experiencia previa en HPC. Finalmente, mediante las pruebas realizadas en un entorno virtual, se comprobó que la implementación tanto de la infraestructura del clúster como de la herramienta funcionan de manera eficiente. Además, estas configuraciones se destacan por ser totalmente replicables en una infraestructura física, lo que refuerza su valor como modelo propuesto en este TFM.

In fields such as scientific research, education, and various professional applications, computational capabilities beyond those of conventional workstations are often required. High Performance Computing (HPC) enables the execution of intensive workloads, such as numerical simulations, large-scale data analysis, and the training of artificial intelligence models. However, the adoption of such infrastructures poses technical and economic challenges in resource-constrained contexts, due to the complexity of configuration, hardware requirements, and the lack of accessible automation mechanisms. This Master’s Thesis (TFM) presents the design and implementation of a local, virtualized HPC cluster based on free and open-source software. The proposal is aimed at environments with limited resources and seeks to reduce operational complexity through a cross-platform tool that facilitates remote use of the system from client workstations. The implemented architecture follows the Beowulf model and consists of one head node and three compute nodes, all virtualized on a single physical host. The operating system is Rocky Linux 8.10. The infrastructure includes Slurm for resource management, FreeIPA for identity control, NFS for shared storage, EasyBuild for application deployment, Ganglia for monitoring, and Open OnDemand as a remote access interface. The developed tool automates key tasks such as file synchronization, environment preparation, and job submission and monitoring to the scheduler. This functionality is intended to simplify interaction with the cluster, providing a user-friendly and efficient interface for users without prior HPC experience. Finally, tests conducted in a virtual environment confirmed that the implementation of both the cluster infrastructure and the tool operates efficiently. Moreover, these configurations have proven to be fully replicable in a physical infrastructure, reinforcing their value as a model proposed in this TFM.

Colecciones

Trabajos Fin de Máster

Excepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional