Modello audio open-source in grado di ascolt…

Nano Banana Pro

Lunedì 6 Giugno 2026

La tecnologia del "modello audio interattivo" sta compiendo grandi progressi. Un nuovo sistema open-source, denominato "Audio Interaction", è stato recentemente presentato da un gruppo di ricercatori provenienti da Cina, Hong Kong e Singapore.

Un modello in grado di ascolto continuo

Il "modello Audio Interaction" è un sistema capace di processare flussi audio continui e combinare in un'unica struttura compiti come dialogo, traduzione, trascrizione e riconoscimento vocale. Il funzionamento del modello è innovativo: divide il flusso audio in segmenti di 0,4 secondi e, dopo ogni segmento, decide, attraverso un token speciale, se rimanere in silenzio o generare una risposta.

Il risultato di questa suddivisione in brevi pezzi audio è un sistema in grado di gestire in tempo reale attività complesse e di adattarsi alle mutevoli richieste del contesto. Non solo, questo modello riesce anche a ridurre notevolmente i tempi di risposta, in alcuni casi battendo modelli più grandi o tradizionalmente potenti.

La base di dati artificiale

Per garantire al modello un addestramento efficace, i ricercatori hanno progettato e utilizzato un dataset artificiale di 302.000 ore. Questo set è stato realizzato attraverso una serie di fasi specifiche per coprire situazioni realistiche e complesse.

Inizialmente, un modello linguistico ha costruito scenari plausibili, ad esempio una cucina al mattino con una serie di sotto-eventi. Successivamente, il sistema ha selezionato clip audio compatibili con tali situazioni, creando suoni mancanti come fragili vetri che si rompono con l’aiuto di modelli audio come AudioX o ElevenLabs. Un'ulteriore fase ha smussato i suoni tagliati affinché si presentassero naturali.

Il risultato: 2.6 milioni di unità

Il risultato è stato un dataset chiamato StreamAudio-2M, contenente 2,6 milioni di unità e circa 302.000 ore di audio, organizzati in sette aree di abilità e 28 sottotask.

Problemi ricorrenti nella progettazione

I ricercatori hanno affrontato due problemi principali durante l’addestramento del modello. Il primo problema riguardava la memoria: il modello dimenticava facilmente i contenuti più antichi in sequenze audio lunghe e rumorose. Per risolvere questa lacuna, hanno introdotto domande che indirizzavano il sistema a rivedere le particelle più remote del suono, costringendolo a sviluppare una memoria a lungo termine.

Il secondo problema era la frequente reazione del modello ad input irrilevanti. Per prevenire questo, i ricercatori hanno incluso un gran quantitativo di "silenzio" verificabile e suoni di sfondo esplicitamente non atti a generare risposte. Il modello ha quindi ottenuto risultati eccellenti nel test ProactiveSound Bench che coinvolge 644 eventi curati da esperti.

La struttura a coda per usi in tempo reale

Per implementazioni reali ed immediate, i ricercatori hanno separato il processo di elaborazione audio in tempo reale dalla generazione di risposte, lasciando che i due procedano in parallelo tramite un sistema a coda: l'audio continuo accumula nuovi segmenti mentre l'output vocale legge solo quando necessario. Senza questa divisione, i tempi di risposta sarebbero saliti da 392 a 831 millisecondi e il sistema si sarebbe bloccato nel 5,2% dei casi.

Il segmento audio di 0,4 secondi rappresenta un compromesso tecnico. Un tempo di 0,2 secondi non fornisce sufficiente contesto e indebolisce il modello in dialogo. Un tempo di 0,8 secondi, invece, aumenta la latenza a 786 millisecondi.

Determinare quando parlare

Il modello SoundFlow allinea segnale audio, rappresentazioni intermedie e token di controllo in una sequenza temporale, allenandosi congiuntamente a determinare quando il modello deve parlare e quando rimanere in silenzio.

Gli strumenti messi a disposizione

Ora il codice sorgente e le istruzioni per scaricare i pesi del modello sono disponibili su GitHub, accompagnati da una licenza Apache 2.0, che permette l’utilizzo commerciale senza restrizioni. L’intero set di dati utilizzato per l’addestramento seguirà in seguito.

Grazie al modello Audio Interaction, la tecnologia si avvicina sempre di più al comportamento di un ascoltatore reale. Questo sistema ha dimostrato di essere in grado di gestire cinque dei sette tipi di task principali in una scena quotidiana: da avvisi proattivi a comprensione audio e traduzione immediata.