Meta ha presentato i primi due modelli di Llama 3, i quali sono stati resi disponibili per un ampissimo utilizzo. La nuova generazione di Llama, infatti, dispone di modelli linguistici preaddestrati e ottimizzati con parametri 8B e 70B, che vantano una grande versatilità in termini di modalità d’utilizzo.

A cosa aspira Meta

L’azienda, nel momento in cui ha deciso di sviluppare Llama 3, si è posta l’obiettivo di realizzare i migliori modelli aperti esistenti. In aggiunta, Meta ha dichiarato di essere intenzionata ad abbracciare la tipologia di etica open source, così da consentire all’intera community di accedere a questi modelli nel corso della fase di sviluppo.

I modelli basati sul testo rilasciati nella giornata del 18 aprile sono i primi della serie di modelli Llama 3. Nel prossimo futuro l’azienda ambisce a rilasciare un numero di modelli sempre maggiore. Inoltre, Meta ha dichiarato di voler rendere Llama 3 multilingue, multimodale e di migliorarne le prestazioni complessive, come le operazioni di codifica e di ragionamento.

Quali sono le novità dei nuovi modelli di Meta Llama 3

I nuovi modelli Llama 3 a 8B e 70B parametri rappresentano un grande elemento di novità rispetto a Llama 2 e consentono di inaugurare un “nuovo stato dell’arte” per i modelli LLM che si collocano a questi livelli. Grazie alle procedure di post-training, infatti, i nuovi modelli hanno principalmente incrementato l’allineamento e aumentato la diversità delle risposte. Inoltre, è stato notato un netto miglioramento nelle capacità di ragionamento, generazione di codici e ascolto delle istruzioni date, così da essere più governabili.

Con Llama 3 è stato anche sviluppato un innovativo set di valutazione umana di alto livello. Tale set contiene una serie di 1800 domande che sono in grado di coprire 12 casi considerati di “uso chiave”, come, ad esempio, chiedere consigli; classificare; codificare; fare brainstorming e così via. A questo proposito, coloro che sono stati incaricati di annotare gli eventuali miglioramenti dei modelli hanno sottolineato complessivamente le ottime prestazioni, in particolare, del modello 70B rispetto ai modelli concorrenti di dimensioni comparabili in scenari realistici.

In cosa consistono i pilastri fondamentali dei nuovi modelli sviluppati

La presenza di un set di dati di addestramento ampio e di alta qualità è un elemento fondamentale per costruire un modello linguistico dal livello eccellente. Infatti, i dati di preaddestramento di Llama 3 sono stati particolarmente curati dall’azienda. Llama 3 è stato preaddestrato con 15T di token (tutti raccolti da fonti pubbliche) ed è stato impiegato un set di dati per l’addestramento sette volte più grande rispetto a quello utilizzato per Llama 2 e comprende un numero di codice quattro volte superiore. Inoltre, per garantire un’ottima qualità dei dati forniti, l’azienda ha sviluppato una serie di pipeline di filtraggio dei dati, i quali includono filtri NSFW, approcci di deduplicazione semantica e diversi classificatori di testo.

Anche l’analisi del comportamento in scala dei modelli è stato considerato di vitale importanza per prevedere le future prestazioni di modelli più grandi su compiti chiave. A questo proposito, l’azienda ha sviluppato una serie di leggi di scala dettagliate per le valutazioni di benchmark a valle. Inoltre, per addestrare i modelli Llama 3 più grandi sono stati combinati la parallelizzazione dei dati, del modello e della pipeline. L’addestramento di Llama 3, infatti, è stato il triplo più efficiente rispetto a quello pensato per Llama 2, dato che, tra gli altri elementi considerati, è stata migliorata l’affidabilità dell’hardware e i meccanismi di rilevamento della corruzione silenziosa dei dati.

L’azienda, in aggiunta, ha innovato l’approccio al tuning delle istruzioni, combinando fine-tuning supervisionato (SFT), campionamento dei rifiuti, ottimizzazione diretta della policy (DPO) e delle policy prossimali (PPO). Alcuni dei maggiori miglioramenti nella qualità dei modelli sono stati ottenuti grazie alla particolare cura di questa tipologia di dati. Inoltre, anche i compiti di ragionamento e codifica di Llama 3 sono migliorati notevolmente grazie alla combinazione di PPO e DPO. Infatti, l’addestramento sulle classifiche di preferenza ha consentito ai modelli di imparare a selezionare la risposta migliore alle domande di ragionamento più difficili che gli sono state poste.

Meta ha co-sviluppato Lllama 3 con torchtune, ovvero la nuova libreria nativa di PyTorch per creare, sperimentare e perfezionare con maggiore facilità e flessibilità gli LLM. Torchtune fornisce infatti una serie di addestramenti (scritti in PyTorch) efficienti per incrementare la memoria dei modelli. La libreria di Torchtune è stata integrata con una serie di piattaforme popolari, come Hugging Face, Weights & Biases e EleutherAI. È in grado di supportare anche Executorch così da consentire l’esecuzione di un’inferenza efficiente su un’ampia gamma di dispositivi edge e mobile.

Come verrà sviluppato prossimamente Llama 3

Llama 3 sarà presto disponibile su tutte le principali piattaforme, tra cui i fornitori di cloud, di modelli API e molto altro ancora. Meta ha anche dichiarato di essersi impegnata in uno sviluppo continuo e in una crescita progressiva di un ecosistema AI aperto così da rilasciare i modelli sviluppati in una modalità sicura e responsabile. L’azienda sta infatti adottando un approccio community-first, così da includere al pieno ogni membro della community per garantire lo sviluppo dei modelli presenti e futuri.