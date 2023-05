Meta ha annunciato di aver compiuto un passo importante nel campo dei modelli di intelligenza vocali, ampliando notevolmente il ventaglio di lingue supportate da 100 a più di 1100. Questi numeri valgono per i modelli MMS (Massively Multilingual Speech) che sono alla base sia delle tecnologie di sintesi vocale TTS (text to speech) che dello STT (speech to text), tecniche per la riproduzione artificiale della voce umana. Si superano addirittura le 4.000 lingue parlate per quanto riguarda l’identificazione; questo grazie alla raccolta di dati audio delle persone che leggono la Bibbia e altri testi cristiani.

Le tecnologie di sintesi e la tecnologia vocale in generale sarà sempre più centrale nell’esperienza delle persone, soprattutto con la diffusione dei sistemi in realtà virtuale e aumentata. Questa è l’idea di Meta, che nonostante lo scarso interesse che stanno riscuotendo queste nuove tecnologie dimostra di voler puntare molto nel metaverso, mondo in cui l’intelligenza artificiale e il riconoscimento vocale sono di primaria importanza.

Lo dimostra anche il fatto che i modelli MMS di cui sopra, arricchiti con le tecnologie TTS e SST a oltre 1.100 lingue e a oltre 4.000 lingue parlate per quanto riguarda il riconoscimento (prima erano appena 100 in entrambi i casi), sono ora open source, una scelta che consente anche ad altri sviluppatori, interessati e comunità di ricerca di basarsi sul lavoro di Meta per arricchirlo, a tutto vantaggio della cultura linguistica mondiale e del bacino di persone che riguarda.

Perché raccogliere i dati audio non è per niente facile, soprattutto per le lingue meno diffuse. Basti pensare che in genere i database vocali esistenti integrano al massimo 100 lingue, spiega Meta, sottolineando il grande sforzo impiegato nell’arricchire in queste misure il repertorio di lingue diverse integrate nei modelli citati.

Come anticipato, l’azienda si è avvalsa della Bibbia e di altri testi religiosi, documenti tradotti in una grande quantità di lingue diverse le cui traduzioni sono state ampiamente studiate e verificate nel corso del tempo, e per questo motivo da considerare affidabili e utili per creare un database preciso di un’ampia quantità di idiomi. Meta ha quindi utilizzato le registrazioni audio di persone che leggono questi testi, disponibili pubblicamente, creando così un dataset di letture del Nuovo Testamento per la bellezza di 1.100 lingue, ciascuna con circa 32 ore di dati. Si è arrivati a superare le 4.000 lingue grazie alle registrazioni di altre letture religiose cristiane.

Sorge spontaneo qualche dubbio sull’impatto che potrebbe avere la provenienza religiosa di questo database utilizzato per i modelli in questione, a cui si aggiunge fra l’altro la netta prevalenza della voce maschile nelle letture della Bibbia e degli altri testi utilizzati. Al riguardo Meta rassicura dicendo che analisi (non meglio precisate) hanno dimostrato che i modelli non ne sono condizionati.

In ogni caso, l’obiettivo di Meta è di continuare ad arricchire ulteriormente il database dei modelli MMS AI per far sì che più persone possibili possano utilizzare le tecnologie che ne faranno uso, soprattutto le future soluzioni di realtà virtuale e aumentata. Qui trovate maggiori informazioni.

