Il modello tradizionale di interazione con l'AI generativa prevedeva un abbonamento mensile, una chat aperta, una domanda e una risposta. Gli agenti AI lo hanno stravolto: consumano molti più token, operano in autonomia per ore e rendono inaccettabili i piani flat per i provider. Al tempo stesso, i costi dei token si frammentano lungo assi di velocità, specializzazione ed economicità. Mentre i costi diventano più precisi, i benefici restano spesso ambigui. Il risultato: l'uso dei token diventa una metrica proxy per la creazione di valore, anche se misura solo l'attività e non i risultati finali.
Sei volte l'anno, il team editoriale di THE DECODER analizza in profondità un tema fondamentale sull'AI nel suo "Frontier Radar", pubblicato come newsletter e esclusivamente sul sito per gli abbonati a THE DECODER. La terza edizione copre l'economia emergente dei token nell'AI generativa.
La prima puntata aveva guardato allo stato attuale dell'AI agente. La seconda aveva esaminato l'impatto misurabile dell'AI sulla produttività. Per molto tempo l'AI generativa sembrava un software classico: iscriversi a un piano mensile, aprire una chat, fare una domanda e ricevere una risposta. Gli utenti potenti potevano sempre consultare le API per capire i costi effettivi di ogni richiesta. Ecco perché molti di loro si erano orientati a piani flat, economici con un uso massiccio. Per la maggior parte degli utenti, invece, i costi restavano invisibili.
I piani flat funzionavano bene perché l'uso umano ha inevitabili limiti: le persone digitano lentamente, leggono le risposte, fanno pause, partecipano a riunioni o vanno a casa. Un agente non ha questi limiti: legge file, chiama strumenti, scrive codice, esamina risultati intermedi, corregge gli errori e prova di nuovo. Se l'utente lo desidera, continua finché non completa il compito.
C'è anche la pressione da parte dei provider: le grandi aziende di AI hanno investito centinaia di miliardi di dollari in centri di dati, chip e training dei modelli. Quegli investimenti devono essere rimborsati su una scala che i piani flat non possono sostenere.
Questo numero del Frontier Radar mappa l'economia emergente dei token lungo queste linee. Come si sta cambiando il modello di fatturazione da sottoscrizione a consumo? Come il token stesso sta diventando un prodotto segmentato? Perché il consumo di token continua a essere una misura poco efficace per il valore dell'AI?
I fornitori stanno abbandonando i piani flat
Il cambiamento più visibile è la ristrutturazione dei modelli di prezzo in risposta all'aumento dell'utilizzo. Dal 1° giugno 2026, GitHub Copilot sta passando gradualmente a un modello di prezzo basato sull'utilizzo con i "GitHub AI Credits". I crediti sono legati all'uso reale dei token e ai prezzi API di ogni modello. Si applicano ogni volta che Copilot fa molto più di suggerire codice, principalmente in chat, CLI e caratteristiche degli agenti. I completamenti standard rimangono esenti da queste regole nei piani a pagamento.
GitHub spiega perfettamente il problema: una domanda di chat breve e una sessione di codifica autonoma, in corso per ore, venivano considerate in modo simile. Questo non è sostenibile nel lungo periodo.
Anthropic sta delineando un confine più netto tra utilizzo normale e workflow agente. Claude Code, Claude Cowork e Managed Agents trasformano Claude in un lavoratore digitale. Anthropic ha attribuito i colloqui di blocco di Claude Code alle picchi di carico e contesti fino a un milione di token. I piani precedenti erano adatti a un uso pesante in chat, ma non sempre ad agenti in attesa.
La differenza di consumo tra settori emerge chiaramente dall'analisi degli API pubblici di Anthropic: quasi la metà di tutte le chiamate strumentali agente vanno allo sviluppo del software, l'area che per prima ha beneficiato dei modelli e del supporto strutturato come Claude Code. Servizio clienti, vendite, finanza ed e-commerce non superano solo pochi percento. Le semplici richieste di chat ancora dominano lì. Questo divario si allargherà sicuramente a mano a mano che i workflow agente matureranno nei tool di ufficio, di ricerca, di finanza e di legge. Con esso, la fattura in token entrerà in aree in cui oggi non si sente nemmeno.
Perché il prezzo dei token da solo è fuorviante
Questo sviluppo sposta la questione dei costi: fintantoché l'AI era usata principalmente come strumento di chat, il prezzo per token sembrava una nota tecnica secondaria. Negli workflow agenti, però, diventa un metro aziendale.
L'errore più evidente nell'economia emergente dei token è il paragone basato esclusivamente sul prezzo. GPT-5.5 costa 30 dollari per un milione di token di output, DeepSeek V4 Pro 87 centesimi. Questo non dice molto sugli costi reali. Oltre al prezzo per token, conta anche il consumo per compito. Come con un'auto, il prezzo del carburante da solo non ti dice nulla sul costo del tragitto da Berlino a Monaco. Devi anche sapere la distanza e il consumo.
Un modello economico può costare caro se ne richiede molto per provare, fallisce spesso o richiede molta correzione. Un modello più costoso si rivela conveniente quando raggiunge l'obiettivo con pochi loop e necessita di meno controllo da parte dell'utente.
I benchmarks e altri analisi lo chiariscono. GPT-5.5, ad esempio, doveva compensare parte del suo prezzo superiore con risposte più brevi. Un'analisi dell'utilizzo reale di OpenRouter ha comunque mostrato un aumento del costo da 49 a 92 percento rispetto al predecessore, a seconda della lunghezza di input.
Questo può succedere anche con token costosi: il prezzo e il numero consumati aumentano insieme, come con Google's Gemini 3.5 Flash. Il prezzo del token è triplicato rispetto al predecessore Gemini 3 Flash. Nell'analisi di Artificial Analysis, il modello ha richiesto un maggior numero di passaggi per il test Intelligence Index. Risultato: nel test, ha finito per essere più costoso del Google's attuale top model, Gemini 3.1 Pro.
L'altro lato è la pressione al ribasso da parte di provider come DeepSeek. Il motivo del prezzo da record è una scommessa precisa: se paghi una frazione per token, puoi far girare lo stesso compito quattro o cinque volte e comunque venirne via più economico. Se il risultato finale tiene, questo è interessante. Dove non tiene, il rilavoro consuma rapidamente l'avanzamento economico.
Il mercato dei token si frammenta per classe di performance
Man mano che il mercato si divide, ha meno senso parlare dell'"unico" prezzo di un token. Il prezzo per un milione di token conta