Big Data e deep learning: la svolta dell’AI

· I dataset dell’AI sono cresciuti enormemente, trasformando modelli semplici in sistemi sempre più potenti.
· Dopo il 2010, Big Data e deep learning hanno accelerato drasticamente l’evoluzione dell’intelligenza artificiale.
· La crescita dei dati porta innovazione, ma anche costi, concentrazione tecnologica e problemi etici.

L’insieme di dati sull’“Exponential Growth of Datapoints Used to Train Notable AI Systems” offre una prospettiva particolarmente interessante sull’evoluzione dell’intelligenza artificiale negli ultimi decenni. Analizzando centinaia di sistemi di AI sviluppati tra la metà del Novecento e il 2025, emerge con chiarezza una delle tendenze più significative dell’intera storia dell’informatica: la crescita esponenziale della quantità di dati utilizzati per l’addestramento dei modelli.

Il primo elemento che colpisce è l’enorme differenza tra i dataset storici e quelli contemporanei. Negli anni Cinquanta e Sessanta, gli algoritmi operavano con quantità di dati estremamente limitate, spesso dell’ordine di poche unità o poche migliaia di osservazioni. In quel periodo l’intelligenza artificiale era principalmente una disciplina teorica, concentrata sulla costruzione di regole logiche e sistemi simbolici. La disponibilità di dati digitali era ridotta e la capacità di calcolo dei computer imponeva forti vincoli. Di conseguenza, il progresso dell’AI dipendeva più dall’ingegno degli sviluppatori che dalla disponibilità di grandi basi informative.

Con il passare dei decenni, la situazione cambia gradualmente. L’avvento di Internet, la digitalizzazione dei contenuti e la diffusione dei dispositivi elettronici producono una quantità crescente di dati. Nei primi anni Duemila si osserva già un aumento significativo delle dimensioni dei dataset impiegati nei sistemi più avanzati. Tuttavia, il vero punto di svolta arriva intorno al 2010, quando la combinazione tra Big Data, cloud computing e deep learning trasforma radicalmente il paradigma dell’intelligenza artificiale.

I dati mostrano infatti che il tasso di crescita delle dimensioni dei dataset accelera notevolmente dopo il 2010. Se nei decenni precedenti la crescita era relativamente moderata, nel periodo più recente assume caratteristiche decisamente esponenziali. Alcuni riferimenti presenti nel dataset indicano una crescita media di circa 2,8 volte all’anno tra il 2010 e il 2025. Questo significa che la quantità di dati utilizzata dai modelli di punta non aumenta semplicemente in modo lineare, ma raddoppia e triplica ripetutamente nel corso di pochi anni.

L’analisi statistica conferma questa dinamica. Le dimensioni dei dataset spaziano da valori minimi prossimi all’unità fino a circa 8 × 10¹⁴ datapoint nei sistemi più recenti. Si tratta di una differenza di quattordici ordini di grandezza, un intervallo difficilmente riscontrabile in altri ambiti tecnologici. La mediana dei dataset si colloca nell’ordine delle centinaia di milioni di esempi, mentre il terzo quartile supera decine di miliardi di datapoint. Questi valori evidenziano come l’utilizzo di dataset giganteschi non sia più un’eccezione, ma una pratica consolidata nei progetti più avanzati.

Un altro aspetto rilevante riguarda la crescente importanza dei dati rispetto agli algoritmi stessi. Nelle prime fasi dello sviluppo dell’AI, il miglioramento delle prestazioni dipendeva soprattutto dall’introduzione di nuove tecniche e nuove architetture. Oggi, invece, l’aumento della qualità e della quantità dei dati rappresenta uno dei principali fattori di progresso. Modelli linguistici, sistemi di visione artificiale e reti multimodali ottengono risultati straordinari proprio grazie alla possibilità di apprendere da enormi collezioni di testi, immagini, audio e video.

L’esplosione delle dimensioni dei dataset è strettamente collegata all’evoluzione delle infrastrutture tecnologiche. Addestrare modelli su miliardi o trilioni di esempi richiede capacità computazionali immense, reti di calcolo distribuite e sistemi di archiviazione avanzati. Pertanto, la crescita dei dati non può essere considerata isolatamente: essa riflette un più ampio sviluppo dell’intero ecosistema digitale. In altre parole, dataset più grandi sono possibili perché sono disponibili processori più potenti, GPU specializzate e piattaforme cloud in grado di gestire enormi volumi di informazioni.

Osservando i nomi dei sistemi presenti nel dataset, emerge inoltre la forte presenza di modelli linguistici e multimodali sviluppati negli ultimi anni. Sistemi come mT5, xTrimoPGLM e altri modelli di grandi dimensioni testimoniano il passaggio verso un’AI generalista, capace di operare su più lingue e più tipologie di contenuto. Per raggiungere questi obiettivi, i ricercatori hanno dovuto ampliare drasticamente le fonti di addestramento, raccogliendo dati provenienti da libri, siti web, archivi scientifici, immagini e altre risorse digitali.

Questa tendenza solleva però anche alcune questioni critiche. In primo luogo, la disponibilità di grandi dataset non è distribuita uniformemente tra tutti gli attori del settore. Le aziende tecnologiche più grandi possiedono risorse economiche e infrastrutturali che consentono loro di raccogliere, archiviare e processare quantità enormi di dati. Ciò può creare barriere all’ingresso per università, startup e organizzazioni con risorse più limitate. Il rischio è una crescente concentrazione del potere tecnologico nelle mani di pochi soggetti.

Un secondo problema riguarda la qualità dei dati. L’aumento delle dimensioni non garantisce automaticamente un miglioramento delle prestazioni. Dataset molto estesi possono contenere errori, duplicazioni, contenuti obsoleti o informazioni distorte. Negli ultimi anni la comunità scientifica ha compreso che la qualità e la diversità dei dati sono spesso importanti quanto la loro quantità. Pertanto, la crescita esponenziale osservata nel dataset deve essere interpretata insieme agli sforzi per migliorare i processi di selezione, pulizia e validazione delle informazioni.

Vi sono poi implicazioni etiche e legali. Molti grandi modelli vengono addestrati utilizzando dati raccolti dal web, una pratica che ha generato dibattiti riguardo al copyright, alla privacy e al consenso degli utenti. Più i dataset crescono, maggiore diventa la probabilità di includere materiale protetto o informazioni sensibili. Questo tema è destinato a diventare sempre più centrale man mano che le dimensioni dei dataset continuano ad aumentare.

Dal punto di vista economico, la crescita dei dati rappresenta sia un’opportunità sia una sfida. Da un lato, modelli addestrati su dataset enormi possono generare innovazioni significative nei settori della sanità, della ricerca scientifica, dell’industria e dei servizi. Dall’altro lato, i costi associati alla raccolta e all’elaborazione dei dati crescono rapidamente. L’addestramento dei modelli più avanzati richiede investimenti che possono raggiungere decine o centinaia di milioni di euro, rendendo il settore sempre più capital intensive.

Un’ulteriore osservazione riguarda la sostenibilità ambientale. L’utilizzo di dataset giganteschi implica consumi energetici elevati, sia durante la fase di addestramento sia durante quella di manutenzione delle infrastrutture. Negli ultimi anni il dibattito sull’impatto ambientale dell’intelligenza artificiale è diventato particolarmente acceso. I dati suggeriscono che, se la crescita esponenziale dovesse continuare ai ritmi attuali, sarà necessario sviluppare tecnologie più efficienti dal punto di vista energetico per evitare costi ambientali eccessivi.

Guardando al futuro, è lecito chiedersi se questa crescita possa proseguire indefinitamente. Esistono infatti limiti pratici alla disponibilità di dati di alta qualità. Alcuni ricercatori sostengono che nei prossimi anni l’industria potrebbe avvicinarsi a una situazione di scarsità relativa di dati pubblicamente accessibili. In tale scenario, il progresso dell’AI potrebbe dipendere maggiormente dall’efficienza degli algoritmi, dalla generazione sintetica di dati e da nuove strategie di apprendimento.

In conclusione, il dataset evidenzia una trasformazione profonda nella storia dell’intelligenza artificiale. Dai piccoli esperimenti degli anni Cinquanta si è passati a modelli addestrati su centinaia di miliardi o addirittura trilioni di datapoint. Questa crescita esponenziale rappresenta uno dei motori fondamentali dell’attuale rivoluzione dell’AI e spiega gran parte dei progressi osservati negli ultimi anni. Allo stesso tempo, essa pone interrogativi importanti riguardo alla sostenibilità economica, energetica, etica e sociale del settore. Comprendere queste dinamiche è essenziale per interpretare l’evoluzione futura dell’intelligenza artificiale e per valutare in modo critico le opportunità e i rischi associati alla continua espansione dei dati utilizzati per addestrare i sistemi intelligenti.

Fonte: Our World in Data

Link: https://ourworldindata.org/artificial-intelligence

Glossario dei termini principali

Addestramento (Training)

Processo attraverso il quale un sistema di intelligenza artificiale apprende dai dati per riconoscere schemi, effettuare previsioni o generare contenuti.

Algoritmo

Sequenza di istruzioni matematiche e logiche che consente a un sistema di elaborare informazioni e risolvere problemi.

Artificial Intelligence (AI)

Insieme di tecnologie che permettono ai computer di svolgere compiti che normalmente richiedono capacità cognitive umane, come apprendimento, ragionamento e linguaggio.

Big Data

Enormi quantità di dati caratterizzate da volume, varietà e velocità di generazione tali da richiedere tecnologie avanzate per essere gestite.

Cloud Computing

Infrastruttura informatica che consente di utilizzare risorse di calcolo e archiviazione tramite Internet.

Datapoint

Singola unità informativa utilizzata in un dataset. Può essere una parola, un'immagine, una frase, una registrazione audio o un'altra osservazione.

Dataset

Insieme organizzato di dati utilizzato per addestrare, validare o testare un modello di intelligenza artificiale.

Deep Learning

Sottoinsieme del machine learning basato su reti neurali profonde capaci di apprendere rappresentazioni complesse dai dati.

Esponenziale

Tipo di crescita in cui una quantità aumenta con un tasso proporzionale al proprio valore attuale, producendo incrementi sempre più rapidi nel tempo.

GPU (Graphics Processing Unit)

Processore specializzato che accelera enormemente i calcoli necessari per l'addestramento dei modelli di AI.

Intelligenza Artificiale Generativa

Categoria di sistemi AI in grado di creare nuovi contenuti, come testi, immagini, video, musica o codice.

Large Language Model (LLM)

Modello linguistico di grandi dimensioni addestrato su enormi quantità di testo per comprendere e generare linguaggio naturale.

Machine Learning

Branca dell'intelligenza artificiale che permette ai sistemi di apprendere dai dati senza essere programmati esplicitamente per ogni compito.

Mediana

Misura statistica che divide una distribuzione in due metà uguali: il 50% dei valori è inferiore e il 50% superiore.

Modello AI

Sistema matematico addestrato sui dati per svolgere specifiche attività, come classificazione, previsione o generazione di contenuti.

Modello Multimodale

Sistema AI capace di elaborare contemporaneamente diverse tipologie di dati, come testo, immagini, audio e video.

Ordine di Grandezza

Misura che indica una variazione di dieci volte rispetto a un valore di riferimento. Passare da 10³ a 10⁶ significa aumentare di tre ordini di grandezza.

Parametri

Valori numerici interni di un modello AI che vengono ottimizzati durante l'addestramento e determinano il comportamento del sistema.

Scala Logaritmica

Rappresentazione grafica in cui gli intervalli crescono per potenze di dieci anziché in modo lineare. È utile per visualizzare fenomeni con differenze molto elevate.

Sistema AI

Applicazione concreta di un modello di intelligenza artificiale progettata per svolgere uno o più compiti specifici.

Token

Unità elementare di testo elaborata da un modello linguistico. Può corrispondere a una parola, parte di una parola o un simbolo.

Training Dataset Size

Variabile principale dello studio. Indica il numero totale di datapoint utilizzati per addestrare un sistema di intelligenza artificiale.

Trend

Andamento generale di una variabile nel tempo.

Variabile

Caratteristica osservabile che può assumere valori differenti tra le unità analizzate.

Variabile Dipendente

Variabile che rappresenta il fenomeno da spiegare. In questo studio è la dimensione del dataset di addestramento.

Variabile Indipendente

Variabile utilizzata per spiegare o interpretare i cambiamenti osservati. In questo studio è il tempo (anno di riferimento).

Quartile

Misura statistica che divide una distribuzione in quattro parti uguali, utile per descrivere la dispersione dei dati.

Rete Neurale

Modello computazionale ispirato al funzionamento del cervello umano, composto da nodi interconnessi che elaborano informazioni.

Validazione

Fase di verifica delle prestazioni di un modello AI mediante dati differenti da quelli utilizzati per l'addestramento.

Visione Artificiale (Computer Vision)

Settore dell'AI dedicato all'analisi e all'interpretazione automatica di immagini e video.

Definizione operativa della ricerca

Variabile studiata: Dimensione del dataset di addestramento (Training Dataset Size).

Unità di analisi: Sistemi di intelligenza artificiale rilevanti sviluppati tra il 1950 e il 2025.

Domanda di ricerca: Come è cambiata nel tempo la quantità di dati utilizzata per addestrare i sistemi di AI?

Risultato principale: La dimensione dei dataset di training mostra una crescita fortemente esponenziale, con un'accelerazione particolarmente evidente dopo il 2010.

Angelo Leogrande

Cerca nel blog

Big Data e deep learning: la svolta dell’AI

Commenti

Posta un commento

Post popolari in questo blog

Nord e Sud a confronto: differenze territoriali nei tassi di adeguata alimentazione

La Lombardia resta in testa: oltre il 30% di giudizi positivi per gran parte del decennio

Il Veneto guida la crescita: +426% di donne nella politica locale in dieci anni