La corsa all’intelligenza: prestazioni, potenza computazionale e leadership tecnologica nell’era dei Large Language Models

Le prestazioni degli LLM crescono rapidamente con l’aumento delle risorse computazionali impiegate nell’addestramento.
GPT-4 e Gemini Ultra raggiungono risultati record, consolidando la leadership dei big tech.
Efficienza e ottimizzazione emergono come fattori cruciali oltre alla semplice crescita dimensionale.

L’insieme di dati presentato raccoglie alcuni dei più importanti modelli linguistici di grandi dimensioni (LLM) sviluppati tra il 2019 e il 2023, mettendo in relazione tre variabili fondamentali: le prestazioni nei test di conoscenza generale (MMLU), il costo computazionale dell’addestramento espresso in petaFLOP e l’organizzazione che ha sviluppato il modello. L’analisi di questi dati consente di osservare l’evoluzione tecnologica dell’intelligenza artificiale generativa negli ultimi anni e di comprendere come l’aumento delle risorse computazionali abbia contribuito al miglioramento delle capacità dei modelli.

Un primo elemento evidente riguarda la crescita straordinaria delle prestazioni nei benchmark di conoscenza. Nel 2019, GPT-2 finetuned di OpenAI raggiungeva un punteggio MMLU di 32,4, un valore che all’epoca rappresentava un progresso significativo rispetto ai modelli precedenti. Tuttavia, già nel 2020 GPT-3 (davinci) saliva a 43,9 punti, mostrando come l’aumento della scala del modello e dei dati di addestramento producesse un miglioramento sostanziale. La vera accelerazione si osserva però tra il 2022 e il 2023, quando modelli come GPT-3.5 (70), PaLM (540B) (69,3), Chinchilla (67,5) e successivamente GPT-4 (86,4), Gemini Ultra (83,96) e PaLM-2 (78,3) raggiungono livelli di performance senza precedenti.

La relazione tra potenza computazionale e prestazioni appare generalmente positiva. I modelli più performanti sono infatti anche quelli che hanno richiesto le maggiori risorse di addestramento. GPT-4, con un punteggio MMLU di 86,4, ha utilizzato circa 21 miliardi di petaFLOP, mentre Gemini Ultra, che raggiunge 83,96 punti, è stato addestrato con quasi 80 miliardi di petaFLOP. Questi valori sono enormemente superiori rispetto a quelli osservati per GPT-3, che richiedeva circa 393 milioni di petaFLOP. Ciò evidenzia come il progresso recente sia stato sostenuto da investimenti computazionali sempre più elevati.

Tuttavia, i dati mostrano anche che la relazione tra capacità computazionale e qualità del modello non è lineare. Alcuni modelli ottengono risultati molto elevati pur utilizzando quantità relativamente inferiori di calcolo. Il caso più emblematico è Chinchilla di Google DeepMind, che raggiunge un MMLU di 67,5 con circa 588 milioni di petaFLOP, superando GPT-3 pur richiedendo una quantità di calcolo comparabile. Questo risultato conferma una delle principali conclusioni della ricerca recente sugli LLM: non conta soltanto aumentare il numero di parametri, ma anche ottimizzare il rapporto tra dimensione del modello e quantità di dati utilizzati durante l’addestramento.

L’evoluzione dei modelli Gopher sviluppati da Google DeepMind offre un’interessante prospettiva sul tema della scalabilità. I dati includono quattro versioni del modello: 0,4B, 1,4B, 7B e 280B parametri. All’aumentare della dimensione del modello e delle risorse computazionali, il punteggio MMLU cresce progressivamente da 25,7 a 60 punti. Questa serie mostra chiaramente l’esistenza delle cosiddette scaling laws, secondo cui prestazioni e capacità emergenti migliorano in modo prevedibile quando aumentano parametri, dati e potenza computazionale. Tuttavia, l’incremento delle prestazioni tende a diminuire progressivamente, suggerendo la presenza di rendimenti marginali decrescenti.

Un andamento simile è osservabile nella famiglia LLaMA di Meta AI. Il modello da 7 miliardi di parametri raggiunge un punteggio MMLU di 35,1, quello da 13 miliardi arriva a 46,9, la versione da 33 miliardi raggiunge 57,8 e quella da 65 miliardi ottiene 63,4. Anche in questo caso emerge una crescita consistente delle prestazioni accompagnata da un forte aumento delle risorse computazionali. La famiglia LLaMA rappresenta inoltre un importante esempio di come modelli relativamente efficienti possano competere con sistemi molto più costosi, contribuendo alla diffusione della ricerca open source nel settore dell’intelligenza artificiale.

Analizzando le organizzazioni coinvolte, emerge una forte concentrazione dell’innovazione nelle mani di pochi grandi attori. OpenAI, Google DeepMind, Google Research e Meta AI dominano la classifica dei modelli più performanti. OpenAI appare particolarmente rilevante grazie alla progressione GPT-2, GPT-3, GPT-3.5 e GPT-4, che mostra una crescita continua sia nelle prestazioni sia nelle risorse investite. Google presenta invece una strategia più diversificata, sviluppando contemporaneamente le linee Gopher, Chinchilla, PaLM, PaLM-2 e Gemini. Meta AI si distingue soprattutto per il progetto LLaMA, che ha avuto un impatto significativo nella democratizzazione dell’accesso ai modelli linguistici avanzati.

Interessante è anche la presenza di organizzazioni più specializzate. BloombergGPT, sviluppato da Bloomberg, raggiunge un punteggio MMLU di 39,18 con circa 212 milioni di petaFLOP. Sebbene non sia competitivo con i migliori modelli generalisti, il suo obiettivo principale era l’applicazione nel settore finanziario. Analogamente, GLM-130B dell’Università Tsinghua rappresenta uno dei principali contributi della ricerca cinese nel campo degli LLM, ottenendo un risultato di 44,8 punti MMLU.

Un altro aspetto rilevante riguarda il confronto tra modelli generalisti e modelli specializzati. Code-davinci-002, progettato principalmente per la generazione di codice, raggiunge un punteggio MMLU di 68,3, superiore a molti modelli generalisti contemporanei. Questo suggerisce che le competenze richieste per la programmazione condividono numerosi elementi con il ragionamento logico e la conoscenza generale misurati dal benchmark MMLU. Di conseguenza, l’addestramento orientato alla produzione di codice può produrre benefici anche in altri domini cognitivi.

Dal punto di vista cronologico, il periodo 2022-2023 rappresenta una fase di accelerazione straordinaria. Nel giro di un solo anno si passa da modelli come OPT (35,99), BLOOM (39,13) e GPT-NeoX-20B (33,6) a sistemi come GPT-4, Gemini Ultra e PaLM-2 che superano ampiamente il 75% di accuratezza nel benchmark MMLU. Questo salto evidenzia come il settore abbia attraversato una fase di innovazione particolarmente intensa, alimentata sia dai progressi algoritmici sia dalla disponibilità crescente di infrastrutture hardware dedicate all’addestramento.

I dati consentono inoltre di riflettere sul problema della sostenibilità economica. L’aumento delle prestazioni è stato accompagnato da una crescita enorme dei costi computazionali. Se GPT-2 richiedeva appena 36.000 petaFLOP, Gemini Ultra arriva a quasi 80 miliardi. Tale differenza implica investimenti finanziari e infrastrutturali accessibili soltanto a poche organizzazioni globali. Questo fenomeno potrebbe contribuire a una crescente concentrazione del potere tecnologico, rendendo sempre più difficile per università e piccole imprese competere nella frontiera della ricerca.

Nonostante ciò, alcuni modelli mostrano che l’efficienza può essere altrettanto importante della scala. Chinchilla, ad esempio, è spesso citato come dimostrazione del fatto che una migliore allocazione delle risorse può produrre risultati comparabili a quelli ottenuti con quantità molto maggiori di calcolo. Analogamente, la famiglia LLaMA evidenzia come modelli relativamente compatti possano raggiungere prestazioni competitive grazie a una progettazione accurata.

In conclusione, i dati illustrano chiaramente l’evoluzione degli LLM tra il 2019 e il 2023. Si osserva una crescita continua delle prestazioni nei test di conoscenza generale, accompagnata da un aumento massiccio delle risorse computazionali impiegate. La relazione tra calcolo e qualità è forte ma non perfettamente lineare, poiché l’efficienza architetturale e la qualità dei dati di addestramento giocano un ruolo cruciale. OpenAI, Google e Meta emergono come i principali protagonisti di questa trasformazione, mentre modelli come Chinchilla e LLaMA dimostrano che l’innovazione non dipende esclusivamente dalla disponibilità di enormi risorse computazionali. Nel complesso, il dataset racconta la storia di una tecnologia in rapida espansione, caratterizzata da progressi eccezionali ma anche da sfide crescenti legate ai costi, alla sostenibilità e alla concentrazione delle capacità di ricerca.

Fonte: Our World in Data

Link: https://ourworldindata.org/

Il Veneto guida la crescita: +426% di donne nella politica locale in dieci anni

· Il Veneto registra la crescita più alta d’Italia, passando dal 6,7% al 35,3% nel 2023. · Il Lazio raggiunge il 41,2% di rappresentanza femminile, segnando un progresso strutturale e stabile. · Piemonte e Campania mostrano un calo marcato, evidenziando un arretramento nella parità politica locale. L’evoluzione della rappresentanza femminile a livello locale in Italia tra il 2012 e il 2023 mostra un quadro complesso e disomogeneo, segnato da progressi significativi in alcune regioni e da arretramenti in altre. Analizzando i dati disponibili, emergono tendenze che riflettono non solo la diversa sensibilità territoriale alle politiche di genere, ma anche l’effetto delle riforme normative e delle dinamiche politiche locali. Il tema della rappresentanza femminile si colloca infatti al crocevia tra cambiamento culturale, volontà ...

Continua a leggere

Angelo Leogrande

Cerca nel blog

La corsa all’intelligenza: prestazioni, potenza computazionale e leadership tecnologica nell’era dei Large Language Models

Commenti

Posta un commento

Post popolari in questo blog

Nord e Sud a confronto: differenze territoriali nei tassi di adeguata alimentazione

La Lombardia resta in testa: oltre il 30% di giudizi positivi per gran parte del decennio

Il Veneto guida la crescita: +426% di donne nella politica locale in dieci anni