- ·
I dataset
dell’AI sono cresciuti enormemente, trasformando modelli semplici in sistemi
sempre più potenti.
- ·
Dopo il
2010, Big Data e deep learning hanno accelerato drasticamente l’evoluzione
dell’intelligenza artificiale.
- · La crescita dei dati porta innovazione, ma anche costi, concentrazione tecnologica e problemi etici.
L’insieme di
dati sull’“Exponential Growth of Datapoints Used to Train Notable AI Systems”
offre una prospettiva particolarmente interessante sull’evoluzione
dell’intelligenza artificiale negli ultimi decenni. Analizzando centinaia di
sistemi di AI sviluppati tra la metà del Novecento e il 2025, emerge con
chiarezza una delle tendenze più significative dell’intera storia
dell’informatica: la crescita esponenziale della quantità di dati utilizzati
per l’addestramento dei modelli.
Il primo
elemento che colpisce è l’enorme differenza tra i dataset storici e quelli
contemporanei. Negli anni Cinquanta e Sessanta, gli algoritmi operavano con
quantità di dati estremamente limitate, spesso dell’ordine di poche unità o
poche migliaia di osservazioni. In quel periodo l’intelligenza artificiale era
principalmente una disciplina teorica, concentrata sulla costruzione di regole
logiche e sistemi simbolici. La disponibilità di dati digitali era ridotta e la
capacità di calcolo dei computer imponeva forti vincoli. Di conseguenza, il
progresso dell’AI dipendeva più dall’ingegno degli sviluppatori che dalla
disponibilità di grandi basi informative.
Con il passare
dei decenni, la situazione cambia gradualmente. L’avvento di Internet, la
digitalizzazione dei contenuti e la diffusione dei dispositivi elettronici
producono una quantità crescente di dati. Nei primi anni Duemila si osserva già
un aumento significativo delle dimensioni dei dataset impiegati nei sistemi più
avanzati. Tuttavia, il vero punto di svolta arriva intorno al 2010, quando la
combinazione tra Big Data, cloud computing e deep learning trasforma
radicalmente il paradigma dell’intelligenza artificiale.
I dati mostrano
infatti che il tasso di crescita delle dimensioni dei dataset accelera
notevolmente dopo il 2010. Se nei decenni precedenti la crescita era
relativamente moderata, nel periodo più recente assume caratteristiche
decisamente esponenziali. Alcuni riferimenti presenti nel dataset indicano una
crescita media di circa 2,8 volte all’anno tra il 2010 e il 2025. Questo
significa che la quantità di dati utilizzata dai modelli di punta non aumenta
semplicemente in modo lineare, ma raddoppia e triplica ripetutamente nel corso
di pochi anni.
L’analisi
statistica conferma questa dinamica. Le dimensioni dei dataset spaziano da
valori minimi prossimi all’unità fino a circa 8 × 10¹⁴ datapoint nei sistemi
più recenti. Si tratta di una differenza di quattordici ordini di grandezza, un
intervallo difficilmente riscontrabile in altri ambiti tecnologici. La mediana
dei dataset si colloca nell’ordine delle centinaia di milioni di esempi, mentre
il terzo quartile supera decine di miliardi di datapoint. Questi valori
evidenziano come l’utilizzo di dataset giganteschi non sia più un’eccezione, ma
una pratica consolidata nei progetti più avanzati.
Un altro aspetto
rilevante riguarda la crescente importanza dei dati rispetto agli algoritmi
stessi. Nelle prime fasi dello sviluppo dell’AI, il miglioramento delle
prestazioni dipendeva soprattutto dall’introduzione di nuove tecniche e nuove
architetture. Oggi, invece, l’aumento della qualità e della quantità dei dati
rappresenta uno dei principali fattori di progresso. Modelli linguistici,
sistemi di visione artificiale e reti multimodali ottengono risultati
straordinari proprio grazie alla possibilità di apprendere da enormi collezioni
di testi, immagini, audio e video.
L’esplosione
delle dimensioni dei dataset è strettamente collegata all’evoluzione delle
infrastrutture tecnologiche. Addestrare modelli su miliardi o trilioni di
esempi richiede capacità computazionali immense, reti di calcolo distribuite e
sistemi di archiviazione avanzati. Pertanto, la crescita dei dati non può
essere considerata isolatamente: essa riflette un più ampio sviluppo dell’intero
ecosistema digitale. In altre parole, dataset più grandi sono possibili perché
sono disponibili processori più potenti, GPU specializzate e piattaforme cloud
in grado di gestire enormi volumi di informazioni.
Osservando i
nomi dei sistemi presenti nel dataset, emerge inoltre la forte presenza di
modelli linguistici e multimodali sviluppati negli ultimi anni. Sistemi come
mT5, xTrimoPGLM e altri modelli di grandi dimensioni testimoniano il passaggio
verso un’AI generalista, capace di operare su più lingue e più tipologie di
contenuto. Per raggiungere questi obiettivi, i ricercatori hanno dovuto
ampliare drasticamente le fonti di addestramento, raccogliendo dati provenienti
da libri, siti web, archivi scientifici, immagini e altre risorse digitali.
Questa tendenza
solleva però anche alcune questioni critiche. In primo luogo, la disponibilità
di grandi dataset non è distribuita uniformemente tra tutti gli attori del
settore. Le aziende tecnologiche più grandi possiedono risorse economiche e
infrastrutturali che consentono loro di raccogliere, archiviare e processare
quantità enormi di dati. Ciò può creare barriere all’ingresso per università,
startup e organizzazioni con risorse più limitate. Il rischio è una crescente
concentrazione del potere tecnologico nelle mani di pochi soggetti.
Un secondo
problema riguarda la qualità dei dati. L’aumento delle dimensioni non
garantisce automaticamente un miglioramento delle prestazioni. Dataset molto
estesi possono contenere errori, duplicazioni, contenuti obsoleti o informazioni
distorte. Negli ultimi anni la comunità scientifica ha compreso che la qualità
e la diversità dei dati sono spesso importanti quanto la loro quantità.
Pertanto, la crescita esponenziale osservata nel dataset deve essere
interpretata insieme agli sforzi per migliorare i processi di selezione,
pulizia e validazione delle informazioni.
Vi sono poi
implicazioni etiche e legali. Molti grandi modelli vengono addestrati
utilizzando dati raccolti dal web, una pratica che ha generato dibattiti
riguardo al copyright, alla privacy e al consenso degli utenti. Più i dataset
crescono, maggiore diventa la probabilità di includere materiale protetto o
informazioni sensibili. Questo tema è destinato a diventare sempre più centrale
man mano che le dimensioni dei dataset continuano ad aumentare.
Dal punto di
vista economico, la crescita dei dati rappresenta sia un’opportunità sia una
sfida. Da un lato, modelli addestrati su dataset enormi possono generare
innovazioni significative nei settori della sanità, della ricerca scientifica,
dell’industria e dei servizi. Dall’altro lato, i costi associati alla raccolta
e all’elaborazione dei dati crescono rapidamente. L’addestramento dei modelli
più avanzati richiede investimenti che possono raggiungere decine o centinaia
di milioni di euro, rendendo il settore sempre più capital intensive.
Un’ulteriore
osservazione riguarda la sostenibilità ambientale. L’utilizzo di dataset
giganteschi implica consumi energetici elevati, sia durante la fase di
addestramento sia durante quella di manutenzione delle infrastrutture. Negli
ultimi anni il dibattito sull’impatto ambientale dell’intelligenza artificiale
è diventato particolarmente acceso. I dati suggeriscono che, se la crescita
esponenziale dovesse continuare ai ritmi attuali, sarà necessario sviluppare
tecnologie più efficienti dal punto di vista energetico per evitare costi
ambientali eccessivi.
Guardando al
futuro, è lecito chiedersi se questa crescita possa proseguire indefinitamente.
Esistono infatti limiti pratici alla disponibilità di dati di alta qualità.
Alcuni ricercatori sostengono che nei prossimi anni l’industria potrebbe
avvicinarsi a una situazione di scarsità relativa di dati pubblicamente
accessibili. In tale scenario, il progresso dell’AI potrebbe dipendere
maggiormente dall’efficienza degli algoritmi, dalla generazione sintetica di
dati e da nuove strategie di apprendimento.
In conclusione,
il dataset evidenzia una trasformazione profonda nella storia dell’intelligenza
artificiale. Dai piccoli esperimenti degli anni Cinquanta si è passati a
modelli addestrati su centinaia di miliardi o addirittura trilioni di
datapoint. Questa crescita esponenziale rappresenta uno dei motori fondamentali
dell’attuale rivoluzione dell’AI e spiega gran parte dei progressi osservati
negli ultimi anni. Allo stesso tempo, essa pone interrogativi importanti
riguardo alla sostenibilità economica, energetica, etica e sociale del settore.
Comprendere queste dinamiche è essenziale per interpretare l’evoluzione futura
dell’intelligenza artificiale e per valutare in modo critico le opportunità e i
rischi associati alla continua espansione dei dati utilizzati per addestrare i
sistemi intelligenti.
Fonte: Our World in Data
Link: https://ourworldindata.org/artificial-intelligence
Glossario dei termini
principali
Addestramento (Training)
Processo
attraverso il quale un sistema di intelligenza artificiale apprende dai dati
per riconoscere schemi, effettuare previsioni o generare contenuti.
Algoritmo
Sequenza di
istruzioni matematiche e logiche che consente a un sistema di elaborare
informazioni e risolvere problemi.
Artificial Intelligence (AI)
Insieme di
tecnologie che permettono ai computer di svolgere compiti che normalmente
richiedono capacità cognitive umane, come apprendimento, ragionamento e
linguaggio.
Big Data
Enormi
quantità di dati caratterizzate da volume, varietà e velocità di generazione
tali da richiedere tecnologie avanzate per essere gestite.
Cloud Computing
Infrastruttura
informatica che consente di utilizzare risorse di calcolo e archiviazione
tramite Internet.
Datapoint
Singola
unità informativa utilizzata in un dataset. Può essere una parola, un'immagine,
una frase, una registrazione audio o un'altra osservazione.
Dataset
Insieme
organizzato di dati utilizzato per addestrare, validare o testare un modello di
intelligenza artificiale.
Deep Learning
Sottoinsieme
del machine learning basato su reti neurali profonde capaci di apprendere
rappresentazioni complesse dai dati.
Esponenziale
Tipo di
crescita in cui una quantità aumenta con un tasso proporzionale al proprio
valore attuale, producendo incrementi sempre più rapidi nel tempo.
GPU (Graphics Processing Unit)
Processore
specializzato che accelera enormemente i calcoli necessari per l'addestramento
dei modelli di AI.
Intelligenza Artificiale Generativa
Categoria di
sistemi AI in grado di creare nuovi contenuti, come testi, immagini, video,
musica o codice.
Large Language Model (LLM)
Modello
linguistico di grandi dimensioni addestrato su enormi quantità di testo per
comprendere e generare linguaggio naturale.
Machine Learning
Branca
dell'intelligenza artificiale che permette ai sistemi di apprendere dai dati
senza essere programmati esplicitamente per ogni compito.
Mediana
Misura
statistica che divide una distribuzione in due metà uguali: il 50% dei valori è
inferiore e il 50% superiore.
Modello AI
Sistema
matematico addestrato sui dati per svolgere specifiche attività, come
classificazione, previsione o generazione di contenuti.
Modello Multimodale
Sistema AI
capace di elaborare contemporaneamente diverse tipologie di dati, come testo,
immagini, audio e video.
Ordine di Grandezza
Misura che
indica una variazione di dieci volte rispetto a un valore di riferimento.
Passare da 10³ a 10⁶ significa aumentare di tre ordini di grandezza.
Parametri
Valori
numerici interni di un modello AI che vengono ottimizzati durante
l'addestramento e determinano il comportamento del sistema.
Scala Logaritmica
Rappresentazione
grafica in cui gli intervalli crescono per potenze di dieci anziché in modo
lineare. È utile per visualizzare fenomeni con differenze molto elevate.
Sistema AI
Applicazione
concreta di un modello di intelligenza artificiale progettata per svolgere uno
o più compiti specifici.
Token
Unità
elementare di testo elaborata da un modello linguistico. Può corrispondere a
una parola, parte di una parola o un simbolo.
Training Dataset Size
Variabile
principale dello studio. Indica il numero totale di datapoint utilizzati per
addestrare un sistema di intelligenza artificiale.
Trend
Andamento
generale di una variabile nel tempo.
Variabile
Caratteristica
osservabile che può assumere valori differenti tra le unità analizzate.
Variabile Dipendente
Variabile
che rappresenta il fenomeno da spiegare. In questo studio è la dimensione del
dataset di addestramento.
Variabile Indipendente
Variabile
utilizzata per spiegare o interpretare i cambiamenti osservati. In questo
studio è il tempo (anno di riferimento).
Quartile
Misura
statistica che divide una distribuzione in quattro parti uguali, utile per
descrivere la dispersione dei dati.
Rete Neurale
Modello
computazionale ispirato al funzionamento del cervello umano, composto da nodi
interconnessi che elaborano informazioni.
Validazione
Fase di
verifica delle prestazioni di un modello AI mediante dati differenti da quelli
utilizzati per l'addestramento.
Visione Artificiale (Computer Vision)
Settore
dell'AI dedicato all'analisi e all'interpretazione automatica di immagini e
video.
Definizione operativa della ricerca
Variabile
studiata: Dimensione
del dataset di addestramento (Training Dataset Size).
Unità di
analisi: Sistemi di
intelligenza artificiale rilevanti sviluppati tra il 1950 e il 2025.
Domanda di
ricerca: Come è
cambiata nel tempo la quantità di dati utilizzata per addestrare i sistemi di
AI?
Risultato
principale: La
dimensione dei dataset di training mostra una crescita fortemente esponenziale,
con un'accelerazione particolarmente evidente dopo il 2010.
Commenti
Posta un commento