Nel mondo dell'AI aziendale c'è stata una rivelazione nel fine settimana, quando la startup cinese MiniMax ha annunciato il lancio del suo modello LLM M3 sabato sera, orario estivo orientale. M3 presenta un contesto capace di gestire fino a 1 milione di token, unito ad una nativa multi-modalità e una capacità di programmazione all'avanguardia, con un prezzo che si colloca solo al 5-10% del costo dei modelli proprietari leader, come OpenAI GPT-5.5, Google Gemini 3.1 Pro o Anthropic Claude.
MiniMax ha anche annunciato che intende rendere M3 disponibile sotto una licenza open source, inclusa con "pesi liberi," permettendo scaricamenti completi per adattamenti aziendali gratuiti, con la data precisa da comunicare a breve. Ad oggi, è possibile attivarlo via API con uno sconto speciale di $0.3 per 1 milione di token in input e $1.20 per 1 milione in output per il mese seguente.
Il modello, che rientra in una categoria unica di LLM con capacità di agenzia e contestuale allargata, si posiziona decisamente al di sotto di costi eccessivi. Anche al prezzo completo — $0.6 per 1 milione di token in ingresso e $2.40 in uscita — M3 ha solo il 8-20% del costo rispetto ai modelli proprietari leader.
Ripensando i limiti delle scelte tradizionali
La matrice tradizionale che governa la programmazione di modelli LLM ha sempre obbligato gli sviluppatori a scegliere tra la potente intelligenza dei software chiusi, accessibili soltanto tramite API molto restrittive, o i modelli aperti veloci ed economici che però falliscono nelle attività complesse, multireasoning o di grandi quantità di dati. MiniMax-M3 inverte questo schema.
Unendo in forma coesa le due dimensioni storiche dell'AI evoluta, MiniMax introduce una utilità complessiva che prima era riservata agli ecosistemi chiusi più costosi, spostando la base dei modelli open weights. Questo permette un uso aziendale estremamente avanzato a un costo estremamente contenuto.
Piani di prezzo e costi per modelli alternativi
- MiMo-V2.5 Flash: $0.10 in input, $0.30 in output (Xiaomi MiMo)
- deepseek-v4-flash: $0.14 in input, $0.28 in output (DeepSeek)
- deepseek-v4-pro: $0.435 in input, $0.87 in output (DeepSeek)
- MiniMax-M3: $0.30 in input, $1.20 in output (MiniMax)
- Gemini 3.1 Flash-Lite: $0.25 in input, $1.50 in output (Google)
- MiMo-V2.5: $0.40 in input, $2.00 in output (Xiaomi MiMo)
Dai dati sopra si nota che il modello MiniMax-M3, pur con un costo maggiore a confronti di modelli base, rimane estremamente competitivo rispetto a modelli proprietari come GPT-5.5, Gemini 3.1 Pro, o Anthropic.
MiniMax Sparse Attention e sue vantaggiose implicazioni
La caratteristica distintiva del MiniMax-M3, in un ambito dominato da reti Transformer, è il MiniMax Sparse Attention (MSA), un’alternativa architettonica che riduce i costi computazionali. MSA funziona come un amministratore di accesso intelligente, che suddivide le matrici chiave-valore (KV) in blocchi estremamente mirati, migliorando l'efficienza dell’inserimento e del recupero dati.
Pensate a MSA come a un bibliotecario capace di individuare con precisione i libri necessari per controllare solo l’informazione richiesta, senza dover leggere ogni volume. I test interni riferiscono che MSA va più di 4 volte più veloce di Flash-Sparse-Attention o flash-moba, modelli aperti concorrenti.
Con un contesto massimo di milione di token, le richieste computazionali per ogni token scendono al 1/20 della generazione precedente, portando ad un’accelerazione nella fase 9x per il pre-filling e 15x durante la decostruzione.
Integrazione multimediali native
MiniMax, invece di usare un modello di testo addestrato a parte per la visione artificiale, ha progettato M3 come sistema multimodale fin dall'inizio. Ha rimosso il limite artificiale tra sequenze di immagini, testi e componenti visivi, addestrandolo su un insieme di dati di oltre 100 trilioni di token.
Questo permette al modello di tradurre geometria complessa in codice programmabile, ad esempio in grafici o mappe di coordinate. Nei test standard, M3 dimostra quest’abilità integrata, raggiungendo risultati competitivi con modelli proprietari.
Performance su benchmark
I punteggi registrati da MiniMax-M3 in benchmark riconosciuti sono notevoli:
- 59.0% su SWE-Bench Pro, posizionandosi sopra modelli propri come GPT-5.5 e Gemini 3.1 Pro
- 66.0% su Terminal Bench 2.1
- 74.2% su MCP Atlas
- 83.5% su BrowseComp
Confrontandolo però con un recente modello di alto livello, come Anthropic's Claude Opus 4.8, emerge che il MSA di MiniMax ha un limite strutturale in termini di capacità agenti, mostrando minori prestazioni in test che richiedono tool intensivi.
Risultati su test simili con DeepSeek-V4 Pro Max
I test su SWE-Bench Pro vedono M3 con il 59.0% di efficienza rispetto a DeepSeek-V4 Pro Max, che ha il 55.4%. Nel contesto di ambiente cli, DeepSeek-V4 Pro Max mostra una leggera avanzata al 67.9% rispetto al 66.0% di M3.
Le simulazioni di orchestrazione web e navigazione open-world sono quasi paritari: MiniMax con il 83.5% su BrowseComp rispetto al 83.4% di DeepSeek. Su MCP Atlas, MiniMax si impone a 74.2% rispetto a 73.6% di DeepSeek, grazie al suo meccanismo MSA.
Servizi Agentici
MiniMax ha introdotto la sua agenzia AI come parte integrante del nuovo prodotto M3, suddividendo le sue offerte in applicativi autonomi, piani personalizzati e interfacce API per sviluppatori