Google ha annunciato l'arrivo di Gemma 4 12B, un modello multimodale che supporta testo, immagini e audio. Con il suo design pensato per l'esecuzione su dispositivi con 16 GB di RAM, rappresenta un passo significativo in termini di accessibilità e flessibilità nello sviluppo dell'intelligenza artificiale. Questo modello, con licenza Apache 2.0, è scaricabile da piattaforme come Hugging Face e Kaggle, aprendo le porte a sviluppatori di tutto il mondo.

Uno degli aspetti distintivi di Gemma 4 12B è la sua architettura innovativa. A differenza dei modelli precedenti, Google ha semplificato il processo di elaborazione delle immagini, sostituendo gli encoder complessi con un embedder più semplice. L'elaborazione dell'audio è stata invece completamente rivista, con l'eliminazione degli encoder per un miglioramento della velocità e della prestazione complessiva del modello.

Gemma 4 12B è pensato per essere utilizzato in diverse situazioni di sviluppo AI locale. Google segnala che la famiglia dei modelli Gemma ha raggiunto i 4 milioni di download, grazie soprattutto agli sviluppatori che lo utilizzano per i propri progetti. Il nuovo modello dispone di 12 miliardi di parametri e include una serie di funzionalità avanzate per il ragionamento e le interazioni.

I dispositivi supportati per l'esecuzione del modello includono notebook, nonché i Mac grazie all’app Google AI Edge Gallery, ora disponibile anche su macOS. Gli sviluppatori hanno a loro disposizione un certo numero di strumenti, come , Ollama e l’app Google AI Edge Gallery, per lavorare con Gemma 4 12B. Per il riconoscimento vocale, Google presenta Google AI Edge Eloquent, un’altra avanzata applicazione.

Novità tecniche e innovazioni

Più in dettaglio, la decisione di Google di adottare una nuova architettura ha ridotto la latenza, migliorando la velocità di risposta del modello. In modelli tradizionali, gli input multimodali vengono elaborati attraverso encoder dedicati a immagini, audio e testo, prima di essere passati al Large Language Model. In Gemma 4 12B invece si utilizza solo un embedder avanzato per le immagini e si è completamente eliminato l’encoder audio.

Queste modifiche riducono l’overhead computazionale e permettono di ottenere risultati più rapidi e precisi. L’accesso a un modello AI di tale complessità da ambienti di calcolo limitati apre nuove prospettive per una serie di utilizzatori, inclusi studenti, ricercatori e creativi.

Disponibilità e utilizzo

I modelli Gemma 4 sono già disponibili per il download e l’addestramento, con un chiaro focus su accessibilità e flessibilità. Gli utenti possono scaricare Gemma 4 12B da due importanti piattaforme:

    • Hugging Face
    • Kaggle
Inoltre, con l’arrivo della Google AI Edge Gallery su
    • iOS
    • Android
    • mOS
, i dispositivi mobile e i Mac con chip Apple sono completamente supportati.

Strumenti supportati

Per lavorare con Gemma 4 12B, gli sviluppatori possono sfruttare diverse applicazioni, come

    • Ollama
    • Gemini
Per il riconoscimento vocale invece Google ha presentato in contemporanea Google AI Edge Eloquent, una soluzione innovativa destinata a migliorare la flessibilità nell’interazione con modelli AI multimediali.

Conclusione

Il nuovo modello Google Gemma 4 12B rappresenta un’importante evoluzione nel design e nell’applicabilità dell’intelligenza artificiale, rendendo accessibile una tecnologia avanzata anche su hardware di fascia media. Con una licenza open-source, una struttura flessibile e una serie di strumenti di supporto, questo modello punta a diventare uno strumento chiave nella comunità degli sviluppatori globali.