Il settore dell'intelligenza artificiale è entrato pienamente nell'"era degli agenti", in cui i modelli AI svolgono compiti molto più complessi dei semplici testi: pianificano, eseguono e correggono complessi flussi di lavoro per giorni. Il gruppo commerciale Alibaba, uno dei giganti cinesi, ha sviluppato il modello AI Qwen3.7-Max, in grado di operare autonomamente per circa 35 ore. Il modello, però, è solo in formato proprietario e non open source.
La motivazione finanziaria di Alibaba
Finanziariamente, Alibaba ha decisioni strategiche: l’addestramento di modelli AI potenti come Qwen3.7-Max richiede costi ingenti, e liberare i modelli gratuitamente, come fanno modelli open source, non riduce i costi. Alibaba sta semplicemente seguendo la stessa politica adottata da aziende come OpenAI e Google, offrendo modelli innovativi tramite API a pagamento o abbonamenti a costi maggiori. Tuttavia, modelli un po' meno performanti vengono condivisi in formato open source per bilanciare il mercato.
Una svolta per il settore
Molti esperti avevano espresso preoccupazioni in seguito alle dimissioni di alcuni leader chiave del team Qwen. Tuttavia, l'arrivo di Qwen3.7-Max offre nuove opzioni tanto a imprese quanto a singoli utenti. Raramente c'è qualcosa di negativo per i consumatori quando si ha maggiore concorrenza. Tuttavia, la natura di distribuzione limitata a endpoint cinesi potrebbe rendere il modello poco appetibile alle imprese americane ed europee che hanno bisogno di conformità elevata, specialmente per contratti governativi e regolamenti di autonomia dei dati.
Qwen3.7-Max e il suo addestramento
Qwen3.7-Max è stato pensato come un "fondamento di agente versatile", capace di "ragionamento su lungo termine". A differenza dei modelli tradizionali che degradano con il tempo, Qwen3.7-Max non solo mantiene la logica ma la perfeziona. Un esempio lampante è un compito ingegneristico autonomo svolto da Alibaba: il modello era collegato ad un server con un processore T-Head ZW-M890, mai visto in addestramento, e il suo compito era ottimizzare un kernel di attenzione.
35 ore di lavoro autonomo
Nelle 35 ore intere, Qwen3.7-Max operò autonomamente eseguendo 1.158 chiamate strumentali, 432 valutazioni del kernel e diagnosticando fallimenti di compilazione. Arrivò a migliorare il codice e ottenne un miglioramento geometrico medio del 10x. I modelli concorrenti, come GLM-5.1 (z.ai) e Kimi K2.6 (Moonshot), raggiunsero rispettivamente miglioramenti di 7.3x e 5x, ma i loro modelli sono open-source.
Scalabilità e adattamento
L'endurance del modello è raggiunta grazie a una tecnica chiamata "environment scaling". Alibaba ha addestrato il modello su ambienti agenti dinamici e complessi su larga scala. Per dimostrarne la capacità, Qwen3.7-Max simulò un anno intero di crescita di una startup nel benchmark "YC-Bench", ottenendo circa 2.08 milioni di revenue virtuali, quasi il doppio rispetto al modello precedente.
Prevenzione dell’inganno
Il modello ha una funzione di autodifesa: riesce a individuare quando cerca di "barare" e si corregge da sé aggiungendo regole euristiche. Questo tipo di adattamento autonomo lo rende utile per sistemi di lavoro complessi dove l’errore umano è costoso.
Lavoro di supporto per lo sviluppo moderno
Da un punto di vista prodotto, Qwen3.7-Max è pensato come un motore cognitivo per l’automazione in contesti software. Il modello presenta un contesto di 1 milione di token e un limite massimo di output a 64K token, offrendo così un ampio margine per processare codebase estesi o documenti tecnici. Ma forse la funzione più interessante è la "cross-harness generalization", ovvero la capacità di funzionare con diversi ambienti e framework di agenti.
Compatibilità con Anthropic
Qwen3.7-Max supporta natively il protocollo di API di Anthropic, permettendo agli sviluppatori di integrare il modello direttamente in strumenti come Claude Code e OpenClaw. Tale compatibilità offre flessibilità ai team di sviluppo.
Confronto delle prestazioni
I test di benchmark condotti da Alibaba mostrano che il modello ha ottenuto risultati impressionanti: 44.5 sul benchmark di Apex Math Reasoning, davanti a 34.5 di Claude Opus 4.6 Max e 38.3 di DeepSeek V4-Pro Max.
Risultati specifici:
- MCP-Atlas: punteggio di 76.4;
- Humanity's Last Exam: punteggio di 41.4;
- MiniMax M2.7: punteggio di 1.50;
- DeepSeek V4 Pro: punteggio di 5.22;
- Anthropic Claude Opus 4.7: punteggio di 30.
Applicazioni pratiche
Le potenzialità di Qwen3.7-Max si traducono in utilità concreta. Attraverso integrazioni via protocollo Model Context, il modello è capace di funzionare autonomamente come assistente di ufficio: può leggere specifiche di formattazione universitarie e riformattare automaticamente un documento Word attraverso strumenti in terminale a comando, senza intervento umano.
Costi di utilizzo
I costi di accesso al modello via API su Alibaba Cloud Model Studio sono elevati. Gli sviluppatori pagheranno: $2.50 per 1 milione di token input e $7.50 per 1 milione di output. Inoltre, il sistema introduce costi di cache espliciti, una tariffa di $10 per 1.000 chiamate e web search integrati. Tuttavia per un periodo limitato gli strumenti di interprete codice rimarranno gratuiti.
Classifica economica
Qwen3.7-Max si posiziona nel mercato API in una fascia media di prezzo. Benchè costi quasi il doppio dei modelli nazionali concorrenti (DeepSeek V4 Pro a $5.22 e GLM-5.1 Z.ai a $5.80), è ben inferiore al costo di modelli di Silicon Valley con cui è competitivo in termini di prestazioni.
Confronto con i modelli principali:
- OpenAI GPT-5.4: $17.50 per milione di token;
- Anthropic Claude Opus