La Puglia in prima linea per difendere la lingua italiana nell’era dell’intelligenza artificiale. Con un protocollo tra Regione, Istituto Treccani e Università di Bari, prende forma una sperimentazione pubblica e open source. Al centro del progetto c’è Llamantino, modello linguistico sviluppato dal Dipartimento di Informatica dell’ateneo barese. Ne abbiamo parlato con il professor Giovanni Semeraro, odinario di Informatica presso Uniba e responsabile del progetto.
Professore, come nasce il progetto LLaMAntino?
«È nato nel 2023, nell’ambito di un programma Pnrr dedicato alla ricerca sull’intelligenza artificiale, il Future AI Research. L’idea era sviluppare un grande modello linguistico per l’italiano, partendo da sistemi open source già disponibili. Il primo esperimento è stato con Bloom, un modello multilingua che però non comprendeva bene la nostra lingua. Da lì abbiamo cominciato a insegnargliela».
Perché era importante che il modello fosse open source?
«Perché sviluppare un sistema da zero era impossibile per un gruppo universitario: servono risorse economiche e quantità enormi di dati di qualità in italiano. Noi non potevamo stipulare accordi onerosi con chi possiede grandi archivi, come i principali gruppi editoriali. L’alternativa era lavorare su modelli aperti e migliorarli con tecniche di fine tuning, cioè un affinamento mirato, utilizzando meno dati ma più selezionati».
Quali sono state le principali difficoltà?
«La prima è la scarsità di dati in italiano: i modelli internazionali sono addestrati per oltre il 90% su testi in inglese. La seconda è la potenza di calcolo. Per addestrare un modello servono supercomputer: quelli universitari o regionali non bastavano. Abbiamo quindi ottenuto dal Cineca, il consorzio interuniversitario per il calcolo, centinaia di migliaia di ore sul supercomputer Leonardo. Senza, non saremmo arrivati a questo livello».
Come si inserisce in tutto questo la collaborazione con Treccani?
«L’accordo è in via di approvazione. Treccani ci fornirà dati di altissima qualità, lemmi ed enciclopedie curate da esperti. Sono risorse preziose per migliorare il modello, generalmente addestrato con traduzioni di documenti dall’inglese, e far sì che comprenda le sfumature del lessico italiano».
In cosa Llamantino si distingue dai chatbot internazionali come Chatgpt?
«Innanzitutto è aperto: da dicembre 2023 abbiamo rilasciato diversi modelli, scaricati centinaia di migliaia di volte su piattaforme come GitHub o Hugging Face. Diverse aziende italiane li utilizzano: Expert AI, per esempio, li ha integrati in un sistema che riconosce i nomi propri in italiano. E la cosa più importante è che, essendo open source, le aziende possono installarli sui propri server, controllando dati e accessi senza rischiare fughe di informazioni».
Questo significa che l’IA “made in Puglia” è già in uso nelle imprese?
«Sì, anche se non sappiamo quante. Una delle caratteristiche dell’open source è proprio la libertà di utilizzo, senza obbligo di registrazione o licenze. È un vantaggio enorme, soprattutto in termini di sicurezza e personalizzazione».
Tuttavia, i grandi modelli globali restano più potenti. Come si può competere?
«Le loro prestazioni sono superiori, perché dispongono di investimenti enormi. Ma il punto è un altro: non sempre serve avere la “Ferrari” dell’intelligenza artificiale. A volte è meglio un modello personalizzabile, che possiamo controllare e adattare alle nostre esigenze. Questo è il vero valore aggiunto di LLaMAntino».
Il progetto è stato pensato per restare accessibile alla comunità scientifica?
«Assolutamente sì. I modelli sono aperti e molto utilizzati dai ricercatori: gli articoli che abbiamo pubblicato hanno già ottenuto quasi cento citazioni. C’è anche una classifica indipendente, l’Open Italian Llm Leaderboard, che confronta i modelli per l’italiano. Llamantino 3 Anita, il nostro modello più recente, è risultato tra i migliori, persino superiore ad alcuni sistemi proprietari».
Quali sono i prossimi passi per il progetto?
«Abbiamo creato uno spin-off accademico per sviluppare applicazioni su misura per le aziende, locali e non solo. Lavoriamo, per esempio, su modelli che digeriscono manuali tecnici e rispondono a domande degli operatori in linguaggio naturale, oppure su sistemi multimodali, in grado di analizzare contemporaneamente testi e immagini. Le potenzialità sono enormi».
C’è chi teme che l’IA possa sostituire l’uomo in alcune professioni. Lei che ne pensa?
«Il mio lavoro è già cambiato: attività ripetitive ora sono più veloci. Non bisogna avere paura dell’intelligenza artificiale, se resta sotto il nostro controllo. Il problema nasce se diventa uno strumento nelle mani di altri, che noi non conosciamo. È come avere un’auto che qualcuno può guidare da remoto: se il modello è nostro, invece, possiamo gestirlo in totale sicurezza».