Meta ha annunciato il suo primo sistema di traduzione vocale basato sull’intelligenza artificiale in grado di riconoscere e tradurre una lingua orale come l’hokkien.
Dalla lingua scritta alla lingua orale: l’evoluzione della traduzione IA
La grande novità annunciata da Meta in un post di ieri sul blog è particolarmente interessante, in quanto rappresenta il primo vero passo verso la traduzione basata sull’intelligenza artificiale che si concentra totalmente su una lingua non scritta. In questo caso, si tratta dell’hokkien, una variante del cinese parlata dai cinesi emigrati nel sud-est asiatico e a Taiwan.
Finora, la traduzione IA si era concentrata principalmente sulle lingue scritte, ossia su quelle lingue che presentano una forma scritta standard o un sistema di scrittura conosciuto e utilizzato su larga scala. Ciò era dovuto a un motivo molto semplice: per costruire un sistema di traduzione automatica sono necessari moltissimi testi scritti.
Dove nasce l’innovativo sistema di traduzione IA di Meta
Lo strumento di traduzione open source di Meta fa parte di Universal Speech Translator, un ambizioso progetto che punta a sviluppare nuove tecniche basate sull’intelligenza artificiale in grado di consentire la traduzione in tempo reale di tutte le lingue al mondo.
Il progetto include ovviamente sia le lingue scritte che quelle orali, che rappresentano circa la metà delle 7.000 lingue esistenti attualmente in uso. Le più grandi difficoltà che il progetto UST di Meta ha dovuto superare sono quelle relative alla raccolta dei dati e alla progettazione del modello, fasi decisamente più agevoli nel caso delle lingue scritte.
Sviluppare il sistema di traduzione dell’hokkien
La variante hokkien è una lingua povera di risorse e quindi difficilmente trasferibile a un sistema avanzato come quello della traduzione IA. Inoltre, la mancanza di traduttori dall’inglese all’hokkien ha reso ancora più ardue operazioni come la raccolta di dati e l’addestramento del modello.
A questo proposito, è stata adottata una lingua intermedia che potesse fungere da “etichetta”, ossia da supporto nel passaggio tra l’inglese e l’hokkien: il cinese mandarino. Un’altra importante fase è stato il mining di audio, ossia la codifica di contenuti vocali dell’hokkien e l’abbinamento di questi frammenti a contenuti vocali in inglese dalla semantica simile.
Le fasi successive sono state quelle di decodifica del contenuto vocale di partenza per generare un testo in una lingua correlata (come il mandarino) e varie unità acustiche da cui poi generare forme d’onda. In mancanza di una lingua scritta, questa tecnica permette di tradurre secondo un processo chiamato speech-to-unit, che converte quindi un contenuto vocale in unità acustiche utilizzabili poi all’interno di modelli di elaborazione del linguaggio.
Il futuro della traduzione IA secondo Meta
Grazie a questa innovazione, una persona che parla hokkien è quindi in grado di parlare con una persona anglofona. Ciò avviene solamente una frase alla volta, ma il modello è in fase di sviluppo e Meta prevede un futuro in cui sarà possibile la traduzione simultanea tra le lingue.
Come anticipato in un paragrafo precedente, i modelli di traduzione, i dataset di valutazione e i paper di ricerca sono offerti in open source per consentire anche ad altre persone di lavorare partendo dalla solida base resa realtà dal progetto di Meta.
LEGGI ANCHE: Quest Pro è stato appena annunciato nell’evento Meta Connect 2022.