Teoresi logo

IO.T Solutions new section

Le nostre tesi
Logo+UniCT

Università di Catania

Ingegneria informatica

Laurea triennale

Autore

Francesco Rizzo

2022

Analisi e sviluppo di tecnologie AI per il riconoscimento vocale

Logo+UniCT

Università di Catania

Ingegneria informatica

Laurea triennale

Autore

Francesco Rizzo

Artificial Intelligence
Relatori Accademici

Alberto Bertone, Annalisa Letizia, Vincenza Tufano


Abstract

L’utilizzo della voce come parametro biometrico è stato oggetto di molti studi negli ultimi anni, tanto da aver spinto sempre più grandi realtà industriali dell’area tech a sviluppare le loro prime implementazioni come, ad esempio, i vari assistenti vocali nei nostri smartphone o, nel caso specifico della speaker recognition. I motivi che hanno condotto verso lo sviluppo di queste tecnologie sono molteplici: la volontà di eseguire le operazioni quotidiane in maniera più semplice, la necessità di rendere possibili molte azioni a persone che presentano deficit motori o cognitivi, o l’aumento di investimenti verso nuove e più robuste misure di sicurezza. Come progetto di questo lavoro di tesi è stato realizzato un sistema di riconoscimento del parlatore indipendente dal testo, in grado di svolgere il compito di identificazione dell’utente anche nel caso Open-Set. Un sistema di riconoscimento del parlatore può essere adibito ad un utilizzo finalizzato ad eseguire un task di verifica (verificare l’identità di una persona) oppure identificazione (individuare l’identità della persona che sta parlando). I test hanno permesso di valutare le prestazioni del sistema nel caso dell’identificazione. I valori assunti dagli score nella risposta del sistema si sono rivelati essere particolarmente dipendenti dal parlatore; infatti, gli score relativi ai test di un particolare parlatore possono raggiungere valori massimi intorno al 90%, ma arrivare solamente a 50- 60% per altri, con un generale degradamento delle prestazione nel caso di voci femminili. Questo significa che, per una situazione di tipo open-set, esistono casi in cui una soglia globale non assicura il risultato migliore in termini di prestazioni. In casi come questo, l’utilizzo di una soglia adattiva e determinata appositamente per ogni modello potrebbe portare ad un significativo incremento delle prestazioni.

Obiettivo tesi

Sviluppo di un modello di intelligenza artificiale per il riconoscimento vocale

Metodologia di ricerca

Estrazione delle features nel dominio della frequenza (MFCC), training e test di 3 modelli di Machine Learning (SVM,KNN,GMM) implementazione del majority voting.

Conclusioni

Il sistema realizzato in questa tesi ha permesso di valutare le prestazioni di un sistema di riconoscimento del parlatore utilizzando la tecnologia attualmente disponibile.

Sviluppi futuri

Conduzione di test su dataset acquisiti in condizioni reali (eventuale rumore di fondo, diversa distnza dal microfono).