Hyperspectral image processing for material identification in historical documents and artworks
Metadatos
Mostrar el registro completo del ítemEditorial
Universidad de Granada
Departamento
Universidad de Granada.Fecha
2025Fecha lectura
2025-05-16Referencia bibliográfica
López Baldomero, Ana Belén. Hyperspectral image processing for material identification in historical documents and artworks. Granada: Universidad de Granada, 2025. [https://hdl.handle.net/10481/105339]
Patrocinador
Tesis Univ. Granada.Resumen
Material identification in historical documents and artworks is essential for their
study, conservation, and authentication. Understanding the composition of inks,
pigments, and supports enables researchers to address degradation processes, establish
a plausible date, and detect alterations. In this context, hyperspectral imaging
(HSI) has emerged as a highly promising technique due to its ability to acquire
both spatial and spectral information within a wide range from ultraviolet to midwavelength
infrared, without physical contact with the objects and in less time than
conventional methods.
Although spectral reflectance provides clues about chemical composition, factors
such as conservation status, similarity of spectra for different materials, or the presence
of mixtures can complicate identification. Given the advantages of HSI, there
is a need to develop more generalized and automated methodologies for material
identification that are independent of specific features of the document or artwork, such as the number of materials present, the techniques employed by the artist, the
time period or aging effects.
This PhD thesis explores and optimizes various hyperspectral image analysis
techniques, including spectral similarity metrics, machine learning models and deep
learning, as well as spectral unmixing techniques, with the aim of identifying and
mapping inks, pigments, and supports in historical documents and artworks.
One of the main contributions is the development of HYPERDOC, a public
database of hyperspectral images of historical documents and mock-up samples.
It provides spectral information in the visible and near-infrared (VNIR) and shortwave
infrared (SWIR) ranges, along with data on the materials present in each pixel.
First, a preliminary study was carried out to perform material identification using
spectral similiary metrics and a reference library of materials. Three methods
were proposed to determine the most suitable spectral metrics. The integration of
the three methods proved effective for identifying inks in mock-ups and historical
manuscripts, although further refinement was required.
For this reason, six models were implemented and compared, including five traditional
machine learning methods (SVM, KNN, LDA, RF, and PLS-DA) and a deep
learning (DL) model, for the classification of three types of ink: pure metallo-gallate
(MGP), carbon-containing (CC), and non-carbon-containing (NCC) inks. The results
demonstrated that while DL achieved the highest accuracy, SVM provided comparable
performance with lower computational demands. Additionally, post-processing
techniques and data fusion of VNIR and SWIR spectral ranges contributed to the
high classification performance.
To address the problem of mixed materials, a study was performed on a copper
plate oil painting with a reduced palette, pre- and post-intervention. Unmixing
techniques were used to perform material identification. Three methods for extracting endmembers (NFINDR, NMF, and manual extraction) were evaluated in
the VNIR range. Manual extraction provided the most accurate pigment concentration
maps and spectral reconstruction, while NFINDR and NMF correctly identified
more pigments by direct comparison between endmembers and a reference library
of pigments. Furthermore, using the VNIR and SWIR ranges, linear and nonlinear
unmixing models were compared using two hyperspaces: reflectance (R) and
-log(R). In the restored painting, the -log(R) hyperspace with NFINDR proved better
results, while the R space allowed complete pigment identification merging results
from both ranges.
To extend this technique to historical document analysis, unmixing was applied
to identify components in ink mixtures using fused VNIR and SWIR data. The results
showed that it is difficult to detect certain components within the mixtures,
especially when CC ink is present, since the mixture spectra tend to be remarkably
similar to the pure CC ink spectra. Additionally, unmixing was used as preprocessing
to reduce the influence of the support on ink spectra along the borders of
the written strokes, improving classification with an SVM model. Both approaches
showed promising results, although further optimization is needed to reach their
full potential in historical document analysis.
The findings of this PhD thesis contribute to the advancement of HSI techniques
in the study of cultural heritage, particularly in material identification and mapping.
The development of a database, optimization of spectral analysis methods, and integration
of machine learning models and unmixing techniques has contributed significantly
towards reaching more precise and automated material identification in
historical documents and artworks. La identificación de materiales en documentos históricos y obras de arte es esencial
para su estudio, conservación y autenticación. Conocer la composición de tintas,
pigmentos y soportes permite a los investigadores abordar procesos de degradación,
estimar la época de la obra y detectar posibles alteraciones. En este contexto, la imagen
hiperespectral ha surgido como una técnica muy prometedora debido a su capacidad
para adquirir información espacial y espectral en un amplio rango desde
el ultravioleta hasta el infrarrojo de onda corta, de forma no invasiva y en menos
tiempo que técnicas convencionales.
Aunque la reflectancia espectral ofrece indicios sobre la composición química,
factores como el estado de conservación, la similitud de los espectros de diferentes
materiales o la mezcla de ellos, pueden dificultar su identificación. Debido a las ventajas
que presenta la imagen hiperespectral, es necesario desarrollar metodologías
más generalizadas y automatizadas para la identificación de materiales que no dependan de características específicas del documento u obra de arte, como el número
de materiales presentes, las técnicas empleadas por el artista, la época o el envejecimiento
sufrido.
En esta tesis doctoral se han explorado y optimizado diversas técnicas de análisis
de imágenes hiperespectrales, incluyendo métricas de similitud espectral, modelos
de aprendizaje automático (Machine Learning) y aprendizaje profundo (Deep Learning),
así como técnicas de unmixing o desmezclado espectral, con el objetivo de identificar
las tintas, pigmentos y soportes presentes en documentos históricos y en una
obra de arte, y determinar su distribución espacial.
Una de las principales contribuciones es el desarrollo de HYPERDOC, una base
de datos pública de imágenes hiperespectrales de documentos históricos y muestras
modelo. Esta proporciona información espectral en los rangos visible e infrarrojo
cercano (VNIR), e infrarrojo de onda corta (SWIR), junto con datos sobre los materiales
presentes en cada píxel.
Primero, se llevó a cabo un estudio preliminar para la identificación de materiales
utilizando métricas de similitud espectral y una biblioteca de referencia de
materiales. Se propusieron tres métodos para determinar las métricas espectrales
más adecuadas. La integración de los tres métodos demostró ser eficaz para identificar
tintas en muestras modelo y manuscritos históricos, aunque se requería mayor
refinamiento.
Es por ello que se implementaron y compararon seis modelos, incluyendo cinco
métodos tradicionales de aprendizaje automático (SVM, KNN, LDA, RF y PLS-DA)
y un modelo basado en aprendizaje profundo (DL), para la clasificación de tres tipos
de tinta: metalogálica pura (MGP), con contenido de carbón (CC) y sin contenido de
carbón (NCC). Los resultados demostraron que, si bien DL logró la mayor precisión,
SVM obtuvo un rendimiento comparable con menores demandas computacionales. Además, las técnicas de postprocesamiento y la fusión de datos espectrales VNIR y
SWIR contribuyeron al alto rendimiento de la clasificación.
Para abordar el problema de las mezclas de materiales, se llevó a cabo un estudio
en una pintura al óleo sobre placa de cobre con una paleta reducida, antes y
después de su restauración. Se utilizaron técnicas de unmixing para realizar la identificación
de materiales. Se evaluaron tres métodos de extracción de endmembers o
componentes puros (NFINDR, NMF y extracción manual) en el rango VNIR. La extracción
manual proporcionó los mapas de concentración de pigmentos más precisos
y mejor reconstrucción espectral, mientras que con NFINDR y NMF se identificaron
más pigmentos correctamente mediante la comparación directa entre los endmembers
y una biblioteca de referencia de pigmentos. Por otro lado, utilizando los rangos
VNIR y SWIR, se compararon un modelo lineal y no lineal de unmixing, utilizando
dos espacios espectrales: reflectancia (R) y -log(R). En la pintura restaurada, el espacio
-log(R) con NFINDR dio mejores resultados, mientras que en el espacio R se
consiguió una identificación completa con la información de ambos rangos.
Para extender esta técnica al análisis de documentos históricos, se aplicaron técnicas
de unmixing para identificar componentes en mezclas de tintas mediante la
fusión de datos VNIR y SWIR. Los resultados mostraron que es difícil detectar ciertos
componentes dentro de las mezclas, especialmente cuando está presente la tinta
CC, ya que los espectros de mezcla tienden a ser notablemente similares a los espectros
de la tinta CC pura. Además, se aplicó el unmixing como preprocesamiento
para reducir la influencia del soporte en las reflectancias espectrales de las tintas,
especialmente en los bordes de los trazos, mejorando la clasificación con un modelo
SVM. Ambos enfoques mostraron resultados prometedores, aunque es necesario
optimizar su aplicación para alcanzar su máximo potencial en el análisis de documentos
históricos.