Il fine settimana DeepSeek ha annunciato che rende definitivo il taglio al prezzo del 75% sul suo modello di punta V4 Pro, scatenando un attacco disruptivo ai modelli economici capital-intensivi delle aziende all'avanguardia di Silicon Valley. Con questa riduzione, DeepSeek V4 Pro costituisce un'alternativa significativamente più economica rispetto ai modelli occidentali impiegati per lavori di produzione aziendale.
Perché DeepSeek sta battendo Silicon Valley?
DeepSeek's V4 Pro è 7 volte più economico in termini di input e 17 volte più economico in termini di output rispetto alle alternative come Claude Sonnet di Anthropic o GPT 5.5-Med di OpenAI. La versione leggera DeepSeek V4 Flash, inoltre, è da 10 a 25 volte più economica rispetto a Claude Haiku. Questi prezzi stracciati sono resi possibili grazie a innovazioni software e hardware, in particolare intorno alla gestione del cache.
Quando DeepSeek ospita i modelli direttamente in Cina, la sua tariffa di lettura dal cache è addirittura 87 volte più economica rispetto alle nubi occidentali. Questo prezzo competitivo è così aggressivo che lo smartphone gigante Xiaomi ha deciso di aderire esattamente a questa tariffa per il suo nuovo architettura MiMo.
Performace paragonabile ai modelli di punta mondiali
V4 Pro di DeepSeek è quasi alla pari con i modelli tecnologicamente avanzati del west, ottenendo un punteggio di 80.6% per compiti di coding-agent sulla classifica verificata SWE-bench e una valutazione di ragionamento elite del 87.5 sull'indice tecnico MMLU-Pro. Sia il V4 Pro che il V4 Flash, versione leggera ottimizzata per sviluppatori, sono rilasciati con licenza MIT aperta, permettendo alle aziende completa libertà nei modi di distribuzione.
Questa strategia a due modelli consente agli ingegneri di dirigere i compiti complessi su Flash e di mantenere Pro per il ragionamento avanzato, riducendo drasticamente i costi in un momento in cui le preoccupazioni sui budget sono cresciute notevolmente.
La crisi del costo dei token nel mercato globale
Grandi aziende come Uber hanno esaurito i budget 2026 per modelli Claude e Cursor in soli quattro mesi. Alcuni ingegneri hanno speso così tanto in token che la COO ha dichiarato che l'investimento era "sempre più difficile da giustificare".
Per Airbnb, il CEO Brian Chesky spiega che, pur utilizzando i modelli di OpenAI, l'azienda non li adotta pesantemente per i task di produzione, preferendo alternative più veloci e economiche come Alibaba Qwen. Pinterest ha seguito un modello simile, adottando un approccio open-source, aggiornando Alibaba Qwen con i propri dati per sviluppare un assistant di alta qualità, risparmiando l’80% sui costi.
Ingegneria e compliance: i rischi geopolitici
Un'ampia adozione aziendale dei modelli cinesi è ostacolata da considerevoli venti geopolitici nel mondo occidentale. Per giganti statunitensi regolamentati — come finanza, sanità e difesa — l'adozione di modelli DeepSeek richiede tempo.
Nonostante un'architettura aperta con licenza MIT che permetta l'auto-ospedalizzazione e blocco della fuga di dati verso server esteri, le aziende rimangono molto preoccupate per i rischi di catena di fornitura, backdoor potenziate e minacce legali da sanzioni federali inaspettate.
Le squadre software più piccole invece non hanno tanti ostacoli burocratici e possono valutare immediatamente e con vantaggio il risparmio del 75% nei costi infrastrutturali.
OpenRouter: il cuore degli spostamenti di token
OpenRouter, un servizio di distribuzione chiave tra sviluppatori e modelli IA, ha registrato un’escalata straordinaria da parte di DeepSeek V4 Flash: nella settimana scorsa la versione leggera ha conquistato il primo posto nella classifica, con un aumento del 48% di utilizzo sui token.
Il modello Pro di DeepSeek è invece arrivato al sesto posto, seguito da V4 Flash e altri due modelli DeepSeek che hanno processato circa 6 trilioni di token solo su OpenRouter. Confrontando con un modello Premium di OpenAI come GPT-5.5, che si posiziona al 15° posto a 470 miliardi di token, la differenza è evidente.
Sebbene OpenRouter rappresenti solo una parte del mercato (circa il 3% del totale), recenti valutazioni suggeriscono di poter processare tra 15 e 40% delle richieste di token complessive per OpenAI e Google, crescendo esponenzialmente, e quindi rappresentando un indicatore significativo di tendenze, indipendentemente dal peso preciso.
Sviluppi finanziari e collaborazioni
Molti investitori di punta, come Andreessen Horowitz hanno visto che nel 2026 le aziende del settore hanno utilizzato in media 14 modelli diversi per ottimizzare il routing del prezzo e prevenire lock-in. Per questa tendenza architetturale, OpenRouter ha appena ottenuto un significativo finanziamento di 113 milioni, supportato da aziende enterprise del settore dati e software, tra cui Snowflake Ventures, Databricks, NVentures di Nvidia, Google CapitalG.
Stripe ha scelto di collaborare con loro dopo aver osservato l’interesse che OpenRouter aveva riscosso tra importanti clienti enterprise.
L’ascesa degli agenti autonomi e il risparmio scalabile
L’aumento di DeepSeek su OpenRouter segnala un shift strutturale su come l’architettura automatizzata sta iniziando a consumare intelligenza artificiale. Gli sviluppatori stanno spostandosi da chatbot semplici a agenti autonomi complessi, che operano per ore, chiamando strumenti e continuando a rileggere contesti lunghi.
Con il grande volume di chiamate a strumenti e ripetizione del processo su database e nuvole di dati, il consumo di token sale in modo esponenziale. L’utilizzo di APIs chiuse e Premium del West è diventato insostenibile in termini di costi.
Gli ingegneri aziendali avevano sperimentato con prototipi di chatbot di IA single-turn ma, ora che si confrontano con agenti complessi, hanno iniziato a valutare criticamente costi e modelli di licenza. Secondo un’analisi di VentureBeat, “costo per token” o “modello di licenza” è balzato dal 25,4% a marzo al 36,7%, rientrando solo dopo la performance pura come criterio di selezione più importante.
Conclusioni su DeepSeek
La strategia economica radicale di DeepSeek, abbinata alle sue ottimizzazioni hardware-software, sta ridefinendo il panorama dell'intelligenza artificiale enterprise. Non solo permette di ridurre drasticamente i costi per l'accesso ai modelli IA, ma