Menomale a una settimana dal completamento dell'offerta iniziale di azioni (IPO) più grande del 2026, Cerebras Systems sta lanciando il suo piano più aggressivo per dominare il crescente mercato dell'inferenza AI. Lunedì, la azienda produttrice di chip con sede a Sunnyvale ha annunciato di eseguire Kimi K2.6 — un modello open-weight da un trilione di parametri sviluppato da Moonshot AI con sede a Beijing — ai clienti aziendali a una velocità di quasi 1000 token al secondo, una velocità che nessun provider basato su GPU si è avvicinato.

Velocità record per il modello AI da un trilione di parametri

Il risultato, verificato indipendentemente da Artificial Analysis, ha totalizzato 981 token di output al secondo, rendendo Cerebras 6,7 volte più veloce del fornitore di cloud GPU più veloce e 23 volte più veloce della mediana. Per una richiesta di codifica agenziale di 10.000 token di input, Cerebras ha consegnato la risposta completa, inclusa l'elaborazione del prompt, la riflessione e 500 token di output, in 5,6 secondi, rispetto ai 163,7 secondi sull'endpoint ufficiale di Kimi. Sono migliorati di 29 volte il tempo per la risposta finale.

James Wang, direttore del marketing del prodotto di Cerebras, ha dichiarato in esclusiva a VentureBeat prima dell'annuncio che "vogliamo essere molto chiari e mostrare che possiamo gestire i modelli più grandi, in questo caso Kimi K2.6 — un modello MoE da un trilione di parametri su una architettura a scala wafer — e gira a questa velocità incredibile che ci distingue".

L'annuncio rappresenta un punto di svolta critico per Cerebras, che ha a lungo lottato con l’immagine che i suoi chip singoli su scala wafer, nonostante la velocità elevata, potessero gestire solo modelli di piccola o media dimensione. Kimi K2.6 è il primo modello open-weight da un trilione di parametri mai servito in produzione. E con una capitalizzazione di mercato di 95 miliardi di dollari e 5,55 miliardi di dollari in proventi di IPO appena ottenuti, Cerebras sta inviando un chiaro segnale a Wall Street: intende competere non solo per la velocità più elevata, ma anche per la scala dei modelli più estesi.

Con 981 token di output al secondo, Cerebras ha consegnato le risposte di Kimi K2.6 quasi sette volte più velocemente del fornitore più vicino e più di 65 volte più velocemente del più lento.

Perché Cerebras ha scelto un modello cinese come sua offerta da un trilione di parametri

La scelta di Kimi K2.6 riflette sia un traguardo tecnico che una strategia commerciale. Rilasciato il 20 aprile da Moonshot AI, un'azienda cinese fondata nel 2023 da ex studenti dell'Università di Tsinghua e definita una delle "Tigri" dell'AI in Cina, K2.6 è un modello da un trilione di parametri Mixture-of-Experts che si è rapidamente imposto come il modello open-weight più capace disponibile per attività di codifica e agenti. Il modello è leader in SWE-Bench Pro con un punteggio di 58,6, superando Claude Opus 4.6 e paragonandosi a GPT-5.4, inoltre,取得了 punteggi elevati in test agenti come Exam Umano Ultimo e DeepSearchQA. La sua architettura utilizza 32 miliardi di parametri attivati per token su un totale di 1 trilione, con 384 esperti, 8 dei quali selezionati più 1 condiviso per ogni passo in avanti, operanti su una finestra di contesto di 256.000 token.

    • Raggiunge 58.6 in SWE-Bench Pro
    • Ha un punteggio paragonabile a GPT-5.4
    • Supporta contesto fino a 256.000 token per token
    • Utilizza 384 esperti, selezionandone 8 e condividendone uno per passo in avanti

In termini pratici, K2.6 è uno dei primi modelli open-weight che le aziende possono utilizzare praticamente come sostituti economici per API di origine chiusa cara e limitata come quelle di Anthropic and OpenAI, in particolare per le attività di codifica e agenti, diventate tra le applicazioni più importanti dei modelli linguistici di grandi dimensioni. La versione 2.6 estende le capacità di K2.6 da design di interfacce utente a workflow full-stack, inclusi autenticazione, operazioni del database e esecuzione di agenti a lungo orizzonte.

Perché Cerebras è più veloce con wafer-scale

La velocità estrema ottenuta da Cerebras richiede di capire le radicale innovazioni architetturali della loro tecnologia. La maggior parte dell'inferenza AI oggi funziona su cluster di GPU di Nvidia — comunemente organizzati in rack di 72 GPU, che Nvidia promuove come la configurazione NVL72. In questi set, i parametri del modello sono distribuiti su molti chip separati collegati da rete ad alta velocità. I dati devono costantemente spostarsi tra chip e la velocità di interconnessione della GPU diventa un collo di bottiglia, specialmente per modelli grandi con centinaia di miliardi o trilioni di parametri.

Cerebras adotta un approccio radicalmente diverso. Il suo Wafer-Scale Engine 3 è un singolo chip delle dimensioni di un intero wafer di silicio — circa la dimensione di un piatto da portata — che contiene 44 gigabyte di SRAM integrati. A differenza della memory ad alta larghezza di banda utilizzata in GPU, la SRAM si trova direttamente sul die del processore offrendo una latenza estremamente ridotta e una banda molto più alta per l'accesso ai dati. Per Kimi K2.6, Cerebras memorizza i pesi del modello in precisione originale a 4 bit, eseguendo computazioni a punto in virgola mobile a 16 bit. I pesi sono distribuiti su più wafer in un cluster di circa 20 sistemi CS-3, con stream di activation che passano fra loro. Importante, tutti gli esperti per uno strato MoE vengono collocati sullo stesso wafer, in modo che la comunicazione di routing tra i vari esperti avvenga a velocità di SRAM.

Secondo Cerebras, il tessuto interno al wafer offre una larghezza di banda superiore a 200 volte rispetto a NVLink su NVL72.

Wang ha spiegato l'architettura con un’analogia. “I nostri singoli unità sono molto più grandi e capaci — sono dell’ordine di 20 scaffali, invece di 72 GPU”, ha detto. Ogni strato nel transformer può effettivamente servire un utente diverso in parallelo. “Sono come una coda, come sei in fila per i bagel; occupi una parte diversa del hardware. Ma poiché si muovono velocemente, l'esperienza, token per secondo e utente singolo da voi, è abituale.”