La Fbk vara il proprio modello di intelligenza artificiale
La fondazione trentina ha realizzato il primo sistema vocale accessibile a tutti liberamente: un dispositivo di riconoscimento della voce e di traduzione del parlato per ora solo in italiano e in inglese
TRENTO - Oramai ogni giorno molti di noi si interfacciano con l'intelligenza artificiale facendogli le domande e le richieste più disparate. Questi modelli fondamentali per il parlato (Speech Foundation Models, SFMs), come ad esempio Chat GPT, facilitano in particolare il riconoscimento automatico del parlato (ASR) e la traduzione del parlato (ST).
La Fondazione Bruno Kessler ha riscontrato però che questi sistemi mancano completamente di accessibilità ai codici di addestramento e all'insieme di dati utilizzati, ostacolandone la riproducibilità e sollevando preoccupazioni circa una possibile contaminazione dei dati.
Proprio in risposta a questa problematica da due unità della Fondazione Bruno Kessler, rispettivamente "Speech Tek" e "Machine Translation", è nato FAMA, un sistema di riconoscimento vocale e traduzione del parlato sviluppato interamente da zero, senza utilizzare modelli preaddestrati delle big tech, costruito esclusivamente su dati e strumenti totalmente open con l'obiettivo di creare il primo modello con dati non solo pubblicamente accessibili, ma anche rilasciati con una licenza conforme all'open source al fine di permettere agli utenti un accesso completo e un controllo totale sui dati usati in ogni fase del processo scientifico, promuovendo la riproducibilità, la valutazione equa, e la possibilità di costruire su ricerche precedenti senza ostacoli.
Questa visione innovativa è stata realizzata all'interno delle attività della fondazione FAIR - Future Artificial Intelligence Research. La FBK è riuscita perciò nell'impresa realizzandoil primo modello sularga scala in scienza aperta per inglese e italiano. «Abbiamo dimostrato che anche in Italia abbiamo le competenze per creare modelli su larga scala che sono capaci di competere a livello internazionale in completa conformità alle recenti normative europee», spiegano Sara Papi e Marco Gaido, coordinatori del progetto.
La vera innovazione non sta solo nella qualità del modello, ma nella sua totale apertura: il modello è infatti stato addestrato su oltre 150.000 ore di dati audio, tutti liberamente accessibili e con licenze permissive. Ai dati audio già disponibili pubblicamente è stata aggiunta una grande quantità di cosiddetti "dati sintetici", ovvero trascrizioni e traduzioni automatiche in italiano e inglese, realizzati appositamente per il progetto e resi disponibili.
«Il codice, i dati e le procedure utilizzate sono completamente pubblici e documentati, consentendo a chiunque di replicare o adattare il sistema. Il know-how che ha generato questo progetto congiunto e le possibili applicazioni e sviluppo di FAMA lo rendono un asset importante per FBK» spiegano Alessio Brutti, responsabile dell'unità SpeechTek, e Luisa Bentivogli, responsabile dell'unità Machine Translation.
Oltre agli aspetti tecnologici, il progetto rappresenta un passo importante verso un'intelligenza artificiale più aperta, indipendente e riproducibile, ponendo le basi per un ecosistema digitale più equo e accessibile.
I modelli FAMA hanno infatti raggiunto risultati notevoli restando competitivi ma con una velocità fino a 8 volte superiore.