Un modello AI che può osservare e comprendere eventi in diretta o in video è ormai un elemento strategico per molte organizzazioni. Oltre a funzionare da "guardiano della sicurezza" nei siti e nelle strutture, questa tecnologia potrebbe essere utilizzata per identificare i momenti più interessanti di video di marketing, percorrerli per evidenziare errori inconsueti, o per interpretare la gestualità e le azioni durante studi controllati e colloqui di lavoro.
Una Scommessa a Basso Costo
La startup Perceptron Inc., operativa da due anni, mira a democratizzare questa tecnologia. Il giorno d'oggi, ha lanciato il suo modello principale, il Perceptron Mk1, con un costo nettamente inferiore rispetto ai concorrenti di spicco. Lo streaming API ha una tariffa di 0,15 dollari per milione di token in entrata e 1,50 dollari per milione in uscita, che risulta essere tra il 80% e il 90% più economica di offerte come Anthropic, OpenAI, e Google.
Una Ricetta Multi-Modale
Fondata e guidata da Armen Aghajanyan, ex Meta FAIR e Microsoft, Perceptron ha impiegato 16 mesi per sviluppare una "ricetta" multi-modale unica, in grado di affrontare le complessità del mondo fisico. La svolta risiede nella capacità di comprendere leggi di causa-effetto, dinamica oggetti, e leggi della fisica.
Gli interessati potranno testare le prestazioni del Perceptron Mk1 visitando il sito demo pubblico.
Prestazioni su Benchmark Spaziali e Video
Le performance sono sostenute da una serie di benchmark consolidati, incentrati sulla comprensione spaziale. Per quanto riguarda l’intelligenza spaziale (Embspatialbench), Perceptron Mk1 raggiunge un punteggio di 85,1, superando Google’s Robotrics-ER 1.5 (78.4) e Alibaba’s Q3.5-27B (circa 84.5).
Un Salto Qualitativo nelle Comprese Video
Nel benchmark specifico RefSpatialBench, il punteggio di 72.4 di Mk1 supera significativamente modelli come GPT-5m (9.0) e Sonnet 4.5 (2.2). Questo rappresenta un vantaggio chiave nella comprensione di espressioni di riferimento.
Gli esiti nei benchmark video mostrano una dominanza simile. Sulla "sottosezione difficile" di EgoSchema, Mk1 punta il 41.4, uguagliando Alibaba’s Q3.5-27B e battendo Gemini 3.1 Flash-Lite (25.0).
Sul benchmark VSI-Bench, Mk1 conquista un punteggio massimo di 88.5, validando la sua capacità di gestire compiti temporali complessi.
Posizionamento di Mercato e Il Frontiera dell'Efficienza
Perceptron ha mirato direttamente all'"Efficiency Frontier", misurando le medie di punteggio su benchmark video e comprensione fisica rispetto al costo per milione di token. Gli studi benchmark rivelano che Mk1 occupa una posizione unica: mantiene performance almeno paragonabili ai modelli principali, ma a costi vicini agli standard "Lite" o "Flash".
- Mk1 costa 0,15 dollari al milione di token in input e 1,50 dollari in output.
- Con "Efficiency Frontier", GPT-5 si colloca a circa 2 dollari, mentre Gemini 3.1 Pro arriva a 3 dollari. Mk1, invece, si attesta a circa 0,30 dollari con punteggi di ragionamento superiore.
Una Strategia di Prezzo Aggrovigliata
Scopo di questa strategia aggressiva è resa possibile l’utilizzo esteso dell’AI nel settore industriale, non limitata alla sperimentazione. La combinazione di alta potenza e basso costo spinge la tecnologia a diventare accessibile per applicazioni su larga scala.
Architettura e Continuità Temporale
Il cuore tecnico di Perceptron Mk1 risiede nella sua capacità di elaborare video originali a fino 2 frame per secondo su un contesto molto esclusivo di 32K token. A differenza dei tradizionali modelli visivolinguistici che spesso trattano il video come una sequenza non connessa di immagini statiche, Mk1 è progettato per la continuità temporale.
Questa architettura permette al modello di "osservare" flussi estesi e mantenere identità oggetti anche dietro occlusioni, fondamentale per applicazioni robotiche e di sorveglianza. Gli sviluppatori possono interrogare il modello per specifici istanti all'interno di lunghi flussi e ricevere codici temporali strutturati, semplificando il processo di taglio e rilevamento eventi video.
Comprensione Fisica e Leggi Naturali
Una funzionalità centrale di Mk1 è la "Physical Reasoning". Perceptron la definisce come una consapevolezza spaziale precisa che permette al modello di comprendere dinamiche e interazioni fisiche in ambienti autentici. Ad esempio, l'algoritmo può analizzare il contesto per determinare se un tiro di basket è stato effettuato prima o dopo un buzzer, valutando la posizione della palla e letture del cronometro.
Questa funzionalità va al di là della sola riconoscimento di modelli: richiede comprensione di come gli oggetti si muovono nello spazio e nel tempo. Il modello è in grado di contare fino a centinaia di oggetti all'interno di scene intricate e di leggere indicatori analogici e orologi, un compito arduo per sistemi visionari puramente digitali.
Esempi di Intuizione Storica
In una breve prova, il Perceptron Mk1 ha caricato un film in pubblico dominio del 1906, che mostrava la costruzione di grattacieli a New York City, reperibile presso la Biblioteca del Congresso degli Stati Uniti. Mk1 ha non solo correttamente descritto i contenuti, ma ha rapidamente evidenziato dettagli insoliti, come il lavoro da cordata dei dipendenti, e persino identificato il periodo preciso (inizi 1900) da semplici informazioni visive.
Piattaforma Sviluppatori per AI Fisica
Accanto al lancio del modello, Perceptron ha ampliato la propria piattaforma di sviluppo dedicata, volta a trasformare queste capacità percettive avanzate in applicazioni funzionali utilizzando code minime.
Il SDK Perceptron, accessibile in Python, introduce molte funzionalità specializzate come "Focus", "Conteggio", e "apprendimento in contesto".
- Il "Focus" permette un ingrandimento e un taglio automatico all’interno di una scena, sulla base di una descrizione verbale naturale.
- "Counting" è ottimizzata per scene complesse, come individuare e segnalare ogni cucciolo in un gruppo o ogni elemento di frutta.
- Il learning in contest