Implementación y evaluación de robustez de una técnica de watermarking para detección de deepfakes de voz
Identificadores
URI: https://hdl.handle.net/10481/103799Metadatos
Mostrar el registro completo del ítemEditorial
Universidad de Granada
Materia
Marca de agua Deepfake Derechos de Autor Watermark Deepfake Copyright
Fecha
2025Patrocinador
Universidad de Granada. Escuela Técnica Superior de Ingenierías Informática y de Telecomunicación. Trabajo Fin de Grado. Ingeniería de Tecnologías de Telecomunicación. Curso académico 2023/2024Resumen
En esta era, los datos, la autenticidad y la protección de los mismos han adquirido un protagonismo y una gran relevancia como consecuencia de la aparición de técnicas avanzadas de manipulación y edición de datos a través del uso inmoral de las tecnologías de inteligencia artificial emergentes, como los deepfakes. Estas técnicas, que son capaces de crear contenido hiperrealista y de mucha similitud con el original a partir del cual se generó, han puesto contra la espada y la pared a nuestro juicio para diferenciar entre lo verdadero y lo generado mediante inteligencia artificial.
Con este trabajo pretendemos hacer frente a esta situación haciendo uso de técnicas de marcado de agua basado en redes neuronales y aprendizaje profundo. Las marcas de agua nos permiten firmar el contenido de tal forma que podamos conocer la legitimidad de su procedencia en el receptor. Con este enfoque somos capaces de determinar qué contenido ha sido generado de manera fraudulenta. Se presentarán dos redes neuronales, cada una de ellas con una tarea conceptualmente opuesta, denominadas Embedder y Detector. El Embedder, basado en una arquitectura U-Net, se encargará de realizar una incrustación imperceptible de la marca de agua, minimizando las diferencias entre las señales de voz originales y las señales de voz que contienen la marca de agua. El Detector, por su parte, trata de detectar la marca de agua sin errores. Dado que la tarea de cada red neuronal es opuesta, se propone una optimización conjunta para alcanzar el equilibrio entre los requisitos de cada una de ellas. Por último, con el fin de garantizar una reconstrucción de la señal de voz por parte del Embedder sin poner en compromiso la detección de la marca de agua por parte del Detector, se añade una función de coste complementaria al Embedder basada en el PESQ de las señales originales y con marca de agua.
Los resultados del estudio indican que el enfoque propuesto es efectivo, ofreciendo un nuevo mecanismo para proteger la integridad de las comunicaciones multimedia y combatir la propagación de informaciones falsas mediante deepfakes. Este trabajo contribuye a los esfuerzos de garantizar la confiabilidad y seguridad de la información en la era digital, abordando directamente los desafíos emergentes asociados con las tecnologías de inteligencia artificial. In this era, data, authenticity, and their protection have taken on disproportionate
prominence and critical relevance due to the emergence of advanced
data manipulation and editing techniques through the unethical use of emerging
artificial intelligence technologies, such as deepfakes. These techniques,
capable of creating hyper-realistic content that closely resembles the original
from which it was generated, have cornered our judgment in discerning
between what is true and what is generated by artificial intelligence.
With this work, we aim to address this situation by using watermarking
techniques based on neural networks and deep learning. Watermarking
allows us to sign the content in such a way that we can know the legitimacy
of its provenance at the recipient. With this approach we are able to determine
which content has been fraudulently generated.Two neural networks
will be presented, each with a conceptually opposite task, named Embedder
and Detector. The Embedder, based on a U-Net architecture, will handle the
imperceptible embedding of the watermark, minimizing the differences between
the original voice signals and the signals that contain the watermark.
The Detector, on the other hand, attempts to detect the watermark without
errors. Since the task of each neural network is opposite, a joint optimization
is proposed to balance the requirements of each. Finally, to ensure a
reconstruction of the voice signal by the Embedder without compromising
the watermark detection by the Detector, a complementary cost function
based on the PESQ of the original and watermarked signals is added to the
Embedder.
The results of the study indicate that the proposed approach is effective,
offering a new mechanism to protect the integrity of multimedia communications
and combat the spread of false information through deepfakes. This
work contributes to efforts to ensure the reliability and security of information
in the digital age, directly addressing the emerging challenges associated
with artificial intelligence technologies.