Robust speaker verification systems based on deep neural networks Gómez Alanís, Alejandro Peinado Herreros, Antonio Miguel González López, José Andrés Universidad de Granada. Programa de Doctorado en Tecnologías de la Información y la Comunicación Speaker verification systems Deep neural networks Sistemas de autenticación por voz Redes neuronales profundas In a world becoming more and more digital, the need for robust authentication methods enabling the secured access to resources and systems is becoming crucial. In early stages, the identity management systems relied on cryptographic methods requiring the users to remember a password, store cards or even a combination of both to prove their identity. As opposed to these authentication methods, a more natural alternative for human identification/verification is that based on physiological (fingerprint, face, iris, etc) or behavioral (voice, gait, signature, etc) attributes of individuals known as biometrics. This Thesis is focused on voice biometric systems for human verification where the speech signal is employed for making a one-to-one comparison between the user's voice and all the enrolled voices stored in the database. The main goal of this Thesis is the development of robust automatic speaker verification (ASV) systems which are able to detect the two main types of biometric attacks: (i) zero-effort attacks, where a non-enrolled speaker utters bonafide speech in order to try to gain access as an enrolled speaker; and (ii) spoofing attacks, where an impostor tries to gain fraudulent access by presenting speech resembling the voice of a genuine enrolled speaker. The vulnerability of ASV systems to malicious spoofing attacks is a serious concern nowadays, since an impostor can easily present a pre-recorded voice of an enrolled user (replay spoofing attack), generates artificial voice resembling the voice of an enrolled user (text-to-speech spoofing attack), or transform the voice recording of a given speaker so that it sounds as that from an enrolled speaker without changing the phonetic content of the recording (voice conversion spoofing attack). For making voice biometric systems more robust to this type of attacks, we propose the following contributions in this Thesis. First, we have have dealt with the problem of spoofing attack detection for voice biometric systems. The main problem here is the lack of robustness and generalization across different databases. We addressed this issue by proposing a novel neural network architecture which can be used for detecting both logical and physical access spoofing attacks. The proposed convolutional RNN-based architecture is able to process the whole input utterance without cropping it or applying any post-processing combination of chunks. Moreover, since noisy acoustic scenarios can significantly degrade the performance of anti-spoofing systems, we have also proposed two noiseaware techniques based on the usage of masks which help to effectively reduce the performance degradation. Our best performing technique involves the computation and use of signal-to-noise masks that inform the DNN-based spoofing embedding extractor of the noise probability for each time-frequency bin in the input speech spectrogram. Secondly, we also proposed new loss functions which can be effectively used by anti-spoofing and integration of ASV and anti-spoofing systems. We have proposed a new probabilistic loss function for supervised metric learning, where every training class is represented with a probability density function using all the samples of the mini-batch and is estimated through kernel density estimation. We can argue that each class is more accurately represented than in other popular loss functions. Moreover, the proposed loss function replaces the concept of distance between embeddings in negative hard-mining techniques by the concept that an embedding belongs to a class with a given probability. This has the advantage of avoiding the selection of an appropiate distance measure and tuning extra hyper-parameters such as distance margins. Furthermore, we also propose a new loss function for integration systems based on the expected performance and spoofability curve (EPSC) which allows to optimize the voice biometric system in the operating range, instead of only one operating point, in which it is expected to work during evaluation. These proposals allow to improve significantly the performance of both anti-spoofing and complete voice biometric systems. Third, we have studied the integration of ASV and anti-spoofing systems at the score-level and at the embedding-level. To avoid the integration of ASV and anti-spoofing systems at the score-level using scores computed separately, we proposed a new neural network architecture for integrating the systems at the embedding-level which exploits the fact that ASV and anti-spoofing systems share the bonafide speech subspace. Thus, the proposed integration system is able to model the three main biometric speech subspaces: bonafide speech, zero-effort attacks and spoofing attacks. Experimental results on the ASVspoof 2019 corpus show that the joint processing of the ASV and anti-spoofing embeddings with the proposed integration neural network clearly outperforms other state-of-the-art techniques trained and evaluated on the same conditions. Finally, we have studied the robustness of the state-of-the-art voice biometric systems under the presence of adversarial spoofing attacks. Furthermore, we also proposed a new DNN-based generator network for this type of attacks which is trained using existing spoofing attacks and it can be used for finetuning the biometric system in order to make it more robust to adversarial spoofing attacks. Experimental results show that voice biometric systems are highly sensitive to adversarial spoofing attacks in both logical and physical access scenarios. Moreover, the proposed ABTN generator clearly outperforms other classical adversarial attacks techniques such as the fast gradient signed method (FGSM) and the projected gradient descent (PGD). To conclude, we would like to highlight that our contributions successfully integrate the signal processing and deep learning methods for developing robust voice biometric systems. As a result, the systems proposed in this Thesis significantly outperform other state-of-the-art systems. En un mundo cada vez más digital, la necesidad de métodos de autenticación robustos que permitan el acceso seguro a los recursos y sistemas se está volviendo crucial. En las primeras etapas, los sistemas de gestión de identidad se basaban en métodos criptográficos que exigían a los usuarios recordar una contraseña, almacenar tarjetas o incluso una combinación de ambos para probar su identidad. A diferencia de estos métodos de autenticación, una alternativa más natural para la identificación/verificación humana es la basada en atributos fisiológicos (huellas dactilares, rostro, iris, etc.) o conductuales (voz, marcha, firma, etc.) de los individuos conocidos como biométricos. Esta tesis se centra en los sistemas biométricos de voz para la verificación humana donde la señal de voz se emplea para hacer una comparación uno a uno entre la voz del usuario y todas las voces registradas almacenadas en la base de datos. El objetivo principal de esta Tesis es el desarrollo de sistemas robustos de verificación automática de locutores (ASV) que sean capaces de detectar los dos tipos principales de ataques biométricos: (i) ataques de esfuerzo cero, donde un hablante no inscrito pronuncia una frase para intentar ganar acceso como si fuese un locutor legítimo; y (ii) ataques de suplantación de identidad, en los que un impostor intenta ganar acceso fraudulento presentando una frase que se asemeja a la voz de un locutor legítimo genuino. La vulnerabilidad de los sistemas ASV a ataques de suplantación de identidad maliciosos es una preocupación seria hoy en día, ya que un impostor puede presentar fácilmente una voz pregrabada de un usuario inscrito (ataque de suplantación de reproducción), genera una voz artificial que se asemeja a la voz de un usuario inscrito (ataque de suplantación de síntesis de voz), o transformar la grabación de voz de un locutor dado para que suene como la de un locutor registrado sin cambiar el contenido fonético de la grabación (ataque de suplantación de conversión de voz). Para hacer los sistemas biométricos de voz más robustos a este tipo de ataques, proponemos las siguientes contribuciones en esta Tesis. En primer lugar, hemos abordado el problema de la detección de ataques de suplantación de identidad para sistemas biométricos de voz. El principal problema aquí es la falta de solidez y generalización en diferentes bases de datos. Abordamos este problema proponiendo una nueva arquitectura de red neuronal que se puede utilizar para detectar ataques de suplantación de acceso tanto lógicos como físicos. La arquitectura convolucional basada en redes neuronales recurrentes (RNNs) propuesta es capaz de procesar toda la locución de entrada sin recortarla ni aplicar ninguna combinación de fragmentos de posprocesamiento. Además, dado que los escenarios acústicos ruidosos pueden degradar significativamente el rendimiento de los sistemas de anti-spoofing, también hemos propuesto dos técnicas de detección de ruido basadas en el uso de máscaras que ayudan a reducir eficazmente la degradación del rendimiento. Nuestra técnica de mejor rendimiento implica el cálculo y el uso de máscaras de señal a ruido que informan al extractor de características de suplantación de identidad basado en redes neuronales profundas (DNNs) de la probabilidad de ruido para cada intervalo de frecuencia de tiempo en el espectrograma de voz de entrada. En segundo lugar, también hemos propuesto nuevas funciones de coste que se pueden utilizar de forma eficaz para la detección de ataques de suplantación de identidad y para la integración de sistemas ASV y anti-spoofing. Hemos propuesto una nueva función de coste probabilística para el aprendizaje métrico supervisado, donde cada clase de entrenamiento se representa con una función de densidad de probabilidad utilizando todas las muestras del batch de entrenamiento y se estima mediante la estimación de la densidad del kernel. Podemos argumentar que cada clase está representada con mayor precisión que en otras funciones de coste populares. Además, la función de coste propuesta reemplaza el concepto de distancia entre embeddings en técnicas de minería dura negativa por el concepto de que un embedding pertenece a una clase con una probabilidad determinada. Esto tiene la ventaja de evitar la selección de una medida de distancia adecuada y ajustar hiperparámetros adicionales como los márgenes de distancia. Además, también proponemos una nueva función de coste para sistemas de integración basada en la curva de rendimiento esperado y spoofability (EPSC) que permite optimizar el sistema biométrico de voz en el rango operativo, en lugar de un solo punto operativo, en el que se espera que el sistema trabaje durante la evaluación. Estas propuestas permiten mejorar significativamente el rendimiento de los sistemas biométricos de voz tanto de anti-spoofing como completos. En tercer lugar, hemos estudiado la integración de ASV y sistemas de anti-spoofing a nivel de scores y a nivel de embeddings. Para evitar la integración de ASV y sistemas de anti-spoofing a nivel de scores utilizando puntuaciones calculadas por separado, hemos propuesto una nueva arquitectura de red neuronal para integrar los sistemas a nivel de embeddings que explota el hecho de que el sistema de ASV y los sistemas de anti-spoofing comparten el subespacio de voz genuino. Por tanto, el sistema de integración propuesto es capaz de modelar los tres principales subespacios biométricos de la voz: voz auténtica, ataques de esfuerzo cero y ataques de suplantación de identidad. Los resultados experimentales en el corpus ASVspoof 2019 muestran que el procesamiento conjunto de ASV y los embeddings de anti-spoofing con la red neuronal de integración propuesta supera claramente a otras técnicas del estado del arte entrenadas y evaluadas en las mismas condiciones. Finalmente, hemos estudiado la robustez de los sistemas biométricos de voz de ultima generación ante la presencia de ataques de suplantación de identidad adversarios. Además, también hemos propuesto una nueva red generadora basada en DNNs para este tipo de ataques que se entrena utilizando ataques de suplantación de identidad existentes y se puede utilizar para ajustar el sistema biométrico con el fin de hacerlo más robusto a los ataques de suplantación de identidad adversarios. Los resultados experimentales muestran que los sistemas biométricos de voz son muy sensibles a los ataques de suplantación de identidad adversarios en escenarios de acceso lógico y físico. Además, el generador propuesto supera claramente a otras técnicas clásicas de ataques adversarios, como el método rápido con signo de gradiente (FGSM) y el descenso de gradiente proyectado (PGD). En conclusión, nos gustaría destacar que nuestras contribuciones integran con éxito los métodos de procesamiento de señales y aprendizaje profundo para desarrollar sistemas biométricos de voz robustos. Como resultado, los sistemas propuestos en esta Tesis superan significativamente a otros sistemas del estado del arte. 2022-01-25T09:21:19Z 2022-01-25T09:21:19Z 2022 2022-01-21 info:eu-repo/semantics/doctoralThesis Gómez Alanis, Alejandro. Robust speaker verification systems based on deep neural networks. Granada: Universidad de Granada, 2022. [http://hdl.handle.net/10481/72468] 9788411172202 http://hdl.handle.net/10481/72468 eng http://creativecommons.org/licenses/by-nc-nd/3.0/es/ info:eu-repo/semantics/openAccess Atribución-NoComercial-SinDerivadas 3.0 España Universidad de Granada