La corsa all’intelligenza: prestazioni, potenza computazionale e leadership tecnologica nell’era dei Large Language Models
- Le prestazioni degli LLM
crescono rapidamente con l’aumento delle risorse computazionali impiegate
nell’addestramento.
- GPT-4 e Gemini Ultra
raggiungono risultati record, consolidando la leadership dei big tech.
- Efficienza e ottimizzazione
emergono come fattori cruciali oltre alla semplice crescita dimensionale.
L’insieme di
dati presentato raccoglie alcuni dei più importanti modelli linguistici di
grandi dimensioni (LLM) sviluppati tra il 2019 e il 2023, mettendo in relazione
tre variabili fondamentali: le prestazioni nei test di conoscenza generale
(MMLU), il costo computazionale dell’addestramento espresso in petaFLOP e
l’organizzazione che ha sviluppato il modello. L’analisi di questi dati
consente di osservare l’evoluzione tecnologica dell’intelligenza artificiale
generativa negli ultimi anni e di comprendere come l’aumento delle risorse
computazionali abbia contribuito al miglioramento delle capacità dei modelli.
Un primo
elemento evidente riguarda la crescita straordinaria delle prestazioni nei
benchmark di conoscenza. Nel 2019, GPT-2 finetuned di OpenAI raggiungeva un
punteggio MMLU di 32,4, un valore che all’epoca rappresentava un progresso
significativo rispetto ai modelli precedenti. Tuttavia, già nel 2020 GPT-3
(davinci) saliva a 43,9 punti, mostrando come l’aumento della scala del modello
e dei dati di addestramento producesse un miglioramento sostanziale. La vera
accelerazione si osserva però tra il 2022 e il 2023, quando modelli come
GPT-3.5 (70), PaLM (540B) (69,3), Chinchilla (67,5) e successivamente GPT-4
(86,4), Gemini Ultra (83,96) e PaLM-2 (78,3) raggiungono livelli di performance
senza precedenti.
La relazione tra
potenza computazionale e prestazioni appare generalmente positiva. I modelli
più performanti sono infatti anche quelli che hanno richiesto le maggiori
risorse di addestramento. GPT-4, con un punteggio MMLU di 86,4, ha utilizzato
circa 21 miliardi di petaFLOP, mentre Gemini Ultra, che raggiunge 83,96 punti,
è stato addestrato con quasi 80 miliardi di petaFLOP. Questi valori sono
enormemente superiori rispetto a quelli osservati per GPT-3, che richiedeva
circa 393 milioni di petaFLOP. Ciò evidenzia come il progresso recente sia
stato sostenuto da investimenti computazionali sempre più elevati.
Tuttavia, i dati
mostrano anche che la relazione tra capacità computazionale e qualità del
modello non è lineare. Alcuni modelli ottengono risultati molto elevati pur
utilizzando quantità relativamente inferiori di calcolo. Il caso più
emblematico è Chinchilla di Google DeepMind, che raggiunge un MMLU di 67,5 con
circa 588 milioni di petaFLOP, superando GPT-3 pur richiedendo una quantità di
calcolo comparabile. Questo risultato conferma una delle principali conclusioni
della ricerca recente sugli LLM: non conta soltanto aumentare il numero di
parametri, ma anche ottimizzare il rapporto tra dimensione del modello e
quantità di dati utilizzati durante l’addestramento.
L’evoluzione dei
modelli Gopher sviluppati da Google DeepMind offre un’interessante prospettiva
sul tema della scalabilità. I dati includono quattro versioni del modello:
0,4B, 1,4B, 7B e 280B parametri. All’aumentare della dimensione del modello e
delle risorse computazionali, il punteggio MMLU cresce progressivamente da 25,7
a 60 punti. Questa serie mostra chiaramente l’esistenza delle cosiddette
scaling laws, secondo cui prestazioni e capacità emergenti migliorano in modo
prevedibile quando aumentano parametri, dati e potenza computazionale.
Tuttavia, l’incremento delle prestazioni tende a diminuire progressivamente,
suggerendo la presenza di rendimenti marginali decrescenti.
Un andamento simile
è osservabile nella famiglia LLaMA di Meta AI. Il modello da 7 miliardi di
parametri raggiunge un punteggio MMLU di 35,1, quello da 13 miliardi arriva a
46,9, la versione da 33 miliardi raggiunge 57,8 e quella da 65 miliardi ottiene
63,4. Anche in questo caso emerge una crescita consistente delle prestazioni
accompagnata da un forte aumento delle risorse computazionali. La famiglia
LLaMA rappresenta inoltre un importante esempio di come modelli relativamente
efficienti possano competere con sistemi molto più costosi, contribuendo alla
diffusione della ricerca open source nel settore dell’intelligenza artificiale.
Analizzando le
organizzazioni coinvolte, emerge una forte concentrazione dell’innovazione
nelle mani di pochi grandi attori. OpenAI, Google DeepMind, Google Research e
Meta AI dominano la classifica dei modelli più performanti. OpenAI appare
particolarmente rilevante grazie alla progressione GPT-2, GPT-3, GPT-3.5 e
GPT-4, che mostra una crescita continua sia nelle prestazioni sia nelle risorse
investite. Google presenta invece una strategia più diversificata, sviluppando
contemporaneamente le linee Gopher, Chinchilla, PaLM, PaLM-2 e Gemini. Meta AI
si distingue soprattutto per il progetto LLaMA, che ha avuto un impatto
significativo nella democratizzazione dell’accesso ai modelli linguistici
avanzati.
Interessante è
anche la presenza di organizzazioni più specializzate. BloombergGPT, sviluppato
da Bloomberg, raggiunge un punteggio MMLU di 39,18 con circa 212 milioni di
petaFLOP. Sebbene non sia competitivo con i migliori modelli generalisti, il
suo obiettivo principale era l’applicazione nel settore finanziario.
Analogamente, GLM-130B dell’Università Tsinghua rappresenta uno dei principali
contributi della ricerca cinese nel campo degli LLM, ottenendo un risultato di
44,8 punti MMLU.
Un altro aspetto
rilevante riguarda il confronto tra modelli generalisti e modelli
specializzati. Code-davinci-002, progettato principalmente per la generazione
di codice, raggiunge un punteggio MMLU di 68,3, superiore a molti modelli
generalisti contemporanei. Questo suggerisce che le competenze richieste per la
programmazione condividono numerosi elementi con il ragionamento logico e la
conoscenza generale misurati dal benchmark MMLU. Di conseguenza,
l’addestramento orientato alla produzione di codice può produrre benefici anche
in altri domini cognitivi.
Dal punto di
vista cronologico, il periodo 2022-2023 rappresenta una fase di accelerazione
straordinaria. Nel giro di un solo anno si passa da modelli come OPT (35,99),
BLOOM (39,13) e GPT-NeoX-20B (33,6) a sistemi come GPT-4, Gemini Ultra e PaLM-2
che superano ampiamente il 75% di accuratezza nel benchmark MMLU. Questo salto
evidenzia come il settore abbia attraversato una fase di innovazione
particolarmente intensa, alimentata sia dai progressi algoritmici sia dalla
disponibilità crescente di infrastrutture hardware dedicate all’addestramento.
I dati
consentono inoltre di riflettere sul problema della sostenibilità economica.
L’aumento delle prestazioni è stato accompagnato da una crescita enorme dei
costi computazionali. Se GPT-2 richiedeva appena 36.000 petaFLOP, Gemini Ultra
arriva a quasi 80 miliardi. Tale differenza implica investimenti finanziari e
infrastrutturali accessibili soltanto a poche organizzazioni globali. Questo
fenomeno potrebbe contribuire a una crescente concentrazione del potere
tecnologico, rendendo sempre più difficile per università e piccole imprese
competere nella frontiera della ricerca.
Nonostante ciò,
alcuni modelli mostrano che l’efficienza può essere altrettanto importante
della scala. Chinchilla, ad esempio, è spesso citato come dimostrazione del
fatto che una migliore allocazione delle risorse può produrre risultati
comparabili a quelli ottenuti con quantità molto maggiori di calcolo. Analogamente,
la famiglia LLaMA evidenzia come modelli relativamente compatti possano
raggiungere prestazioni competitive grazie a una progettazione accurata.
In conclusione,
i dati illustrano chiaramente l’evoluzione degli LLM tra il 2019 e il 2023. Si
osserva una crescita continua delle prestazioni nei test di conoscenza
generale, accompagnata da un aumento massiccio delle risorse computazionali
impiegate. La relazione tra calcolo e qualità è forte ma non perfettamente
lineare, poiché l’efficienza architetturale e la qualità dei dati di
addestramento giocano un ruolo cruciale. OpenAI, Google e Meta emergono come i
principali protagonisti di questa trasformazione, mentre modelli come
Chinchilla e LLaMA dimostrano che l’innovazione non dipende esclusivamente dalla
disponibilità di enormi risorse computazionali. Nel complesso, il dataset
racconta la storia di una tecnologia in rapida espansione, caratterizzata da
progressi eccezionali ma anche da sfide crescenti legate ai costi, alla
sostenibilità e alla concentrazione delle capacità di ricerca.
Fonte: Our World in Data
Link: https://ourworldindata.org/
Commenti
Posta un commento