Il riconoscimento vocale è una tecnologia che permette ai computer di comprendere il linguaggio parlato. È un componente chiave di molti dispositivi e applicazioni attivati vocalmente, come assistenti virtuali, software di dettatura e call center.
Tradizionalmente, i sistemi di riconoscimento vocale sono stati addestrati su grandi set di dati di registrazioni audio etichettate. Tuttavia, questo approccio non è scalabile per le migliaia di lingue parlate in tutto il mondo.
Apprendimento auto-supervisionato
Un nuovo approccio al riconoscimento vocale, chiamato apprendimento auto-supervisionato, può essere utilizzato per addestrare modelli su set di dati molto più piccoli. L’apprendimento auto-supervisionato funziona addestrando i modelli a prevedere parti mancanti di registrazioni audio. Questo approccio si è dimostrato efficace per una varietà di compiti vocali, tra cui il riconoscimento vocale, la traduzione vocale e la modellazione del linguaggio.
Riconoscimento vocale multilingue
Meta AI ha sviluppato un nuovo modello auto-supervisionato per il riconoscimento vocale multilingue. Questo modello è addestrato su un set di dati di registrazioni audio provenienti da oltre 1100 lingue. Si è dimostrato che il modello supera i modelli precedenti su una varietà di compiti vocali, tra cui il riconoscimento vocale, la traduzione vocale e la modellazione del linguaggio.
Benefici del riconoscimento vocale multilingue
Il riconoscimento vocale multilingue ha una serie di benefici. Prima di tutto, può contribuire a rendere la tecnologia vocale più accessibile alle persone che parlano lingue non ben supportate dai tradizionali sistemi di riconoscimento vocale. In secondo luogo, può contribuire a migliorare l’accuratezza dei sistemi di riconoscimento vocale in lingue con dati di addestramento limitati. Infine, può contribuire a rendere la tecnologia vocale più efficiente riducendo la necessità di addestrare modelli separati per ogni lingua.
Lavoro futuro
Meta AI sta continuando a lavorare per migliorare il riconoscimento vocale multilingue. L’azienda sta sviluppando nuovi modelli che possono essere addestrati su set di dati ancora più piccoli e che possono eseguire ancora meglio una varietà di compiti vocali. Meta AI sta anche lavorando per rendere il riconoscimento vocale multilingue più accessibile agli sviluppatori e ai ricercatori.