Estimación de la distancia cámara-sujeto en fotografías faciales mediante técnicas de aprendizaje profundo Salinas López, Iván Bermejo Nievas, Enrique Mesejo Santiago, Pablo Aprendizaje automático Aprendizaje profundo Distorsión de perspectiva Machine learning Deep learning Perspective distortion La relevancia de las imágenes faciales ha aumentado significativamente a lo largo de los años, debido a la creciente disponibilidad de los dispositivos fotográficos y su uso en el contexto digital. Esta amplia disponibilidad ha permitido su uso en sectores como la biometría o la seguridad, donde el análisis de la calidad y las condiciones de adquisición de las imágenes es especialmente relevante. En particular, la estimación de la distancia entre la cámara y el sujeto es un factor crucial para dicho análisis. Esta predicción permite calcular la distorsión de perspectiva y, en consecuencia, desarrollar avances tanto en la corrección de dichas distorsiones como en ámbitos de identificación o reconocimiento facial. En este TFG se ha diseñado un método para la estimación de la distancia cámara-sujeto a partir de una fotografía con una longitud focal conocida. El objetivo principal es mejorar la única propuesta basada en aprendizaje profundo conocida hasta la fecha. Para ello, se ha generado un conjunto de 135 730 imágenes completamente sintéticas, diversas y realistas, utilizando una variedad de 277 modelos 3D tanto faciales como de cuerpo completo. Con este dataset, se pretende abordar diversos sesgos identificados en propuestas anteriores. La propuesta de este trabajo, denominada FacialSCDnet+, analiza el comportamiento de dos modelos diferentes de aprendizaje profundo para estimar automáticamente la distancia. En concreto, se han empleado las arquitecturas VGG-16 y ResNet-50, adaptadas para el problema de regresión. Ademas, se ha diseñado un benchmark para evaluar el rendimiento de ambas arquitecturas y del metodo en el que se basa este trabajo, empleando tanto conjuntos de imágenes sintéticas como reales. Los experimentos demuestran como las modificaciones propuestas superan la precisión en la estimación de distancias mejorando el error medio absoluto en 5.5 cm y obteniendo un error de distorsión menor de 1% tanto en imágenes reales como sintéticas. The relevance of facial images has significantly increased over the years due to the growing availability of photographic devices and their use in the digital context. This wide availability has enabled their use in sectors such as biometrics or security, where the analysis of the quality and acquisition conditions of the images is particularly relevant. Specifically, estimating the distance between the camera and the subject is a crucial factor for such analysis. This prediction allows calculating the perspective distortion and, consequently, developing advancements both in correcting these distortions and in the fields of identification or facial recognition. In this Final Degree Project, a method has been designed to estimate the subject-to-camera distance from a photograph with a known focal length. The main objective is to improve the only proposal based on deep learning known to date. To achieve this, a set of 135 730 fully synthetic, diverse, and realistic images has been generated, using a variety of 277 3D models, including both facial and full-body models. With this dataset, the aim is to address various biases identified in previous proposals. The proposal of this work, called FacialSCDnet+, analyzes the behavior of two different deep learning models to automatically estimate the distance. Specifically, the VGG-16 and ResNet-50 architectures, adapted for the regression problem, have been employed. Additionally, a benchmark has been designed to evaluate the performance of both architectures and the method on which this work is based, using both synthetic and real image sets. The experiments demonstrate how the proposed modifications improve the accuracy of distance estimation, enhancing the mean absolute error by 5.5 cm and achieving a distortion error of less than 1% in both real and synthetic images. 2025-04-21T12:47:30Z 2025-04-21T12:47:30Z 2025 bachelor thesis https://hdl.handle.net/10481/103709 spa http://creativecommons.org/licenses/by-nc-nd/4.0/ open access Attribution-NonCommercial-NoDerivatives 4.0 Internacional Universidad de Granada