OpenAI ha annunciato numerose novità durante l'evento di ieri sera, tra cui il modello GPT-4o con capacità multimodali. Il modello GPT-4o rappresenta un importante passo avanti nell'interazione uomo-computer, in quanto può ricevere input di testo, immagini e audio e generare output di testo, immagini e audio.
La nuova versione del modello di intelligenza artificiale generativa è stata presentata da Mira Murati, Chief Technology Officer di OpenAI, durante l'evento trasmesso in streaming su YouTube. La lettera "o" nel nome GPT-4o sta per "omni", che in latino significa "tutto". Ciò riflette la capacità del modello di gestire molteplici tipi di input e output.
Capacità del modello GPT-4o
Il modello GPT-4o è stato addestrato per gestire testo, immagini e audio con una velocità paragonabile a quella umana. Può infatti rispondere ad un input audio in meno di 232 millisecondi con una media di 320 millisecondi. Ciò rappresenta un importante miglioramento rispetto ai precedenti modelli, che richiedevano fino a 5,4 secondi di latenza per elaborare gli input.
La funzionalità Voice Mode del modello GPT-4o consente agli utenti di interagire con ChatGPT tramite input vocale. La funzionalità usa attualmente tre modelli distinti, uno per la trascrizione dell'audio in testo, uno per fornire la risposta testuale e uno per convertire il testo in audio. Tuttavia, il modello GPT-4o è stato progettato per gestire tutti questi processi in un unico modello, riducendo la latenza e migliorando l'esperienza dell'utente.
Nuove funzionalità per ChatGPT Free
OpenAI ha anche annunciato diverse novità per gli utenti non abbonati. È possibile utilizzare il modello GPT-4o, ottenere risposte dal web con la funzionalità Browse with Bing, analizzare i dati nei documenti e creare grafici, usare immagini in input, caricare file e sfruttare la funzionalità Memory.
Gli utenti che usano ChatGPT Free possono infine accedere al GPT Store e sfruttare i GPTs. Tuttavia, la creazione dei chatbot personalizzati con GPT Builder rimane un'esclusiva degli abbonati a ChatGPT Plus. Quando viene raggiunto il limite di messaggi, ChatGPT passa automaticamente al modello GPT-3.5 per continuare la conversazione.
App per macOS e nuova interfaccia web
Sia gli utenti free che gli abbonati potranno interagire con ChatGPT attraverso la nuova app per macOS. Con la scorciatoia Option + Space viene aperta una piccola finestra sovrapposta a quella di altri software. Il chatbot può rispondere alle domande relative a ciò che "vede" sullo schermo.
Oltre all'input testuale è disponibile anche l'input vocale (tramite Voice Mode), cliccando sull'icona del microfono in basso a destra. Le funzionalità audio e video di GPT-4o verranno aggiunte in futuro. L'app è già disponibile per gli utenti Plus. Una versione per Windows arriverà entro fine anno.
OpenAI ha infine mostrato la nuova interfaccia di ChatGPT su web. I miglioramenti riguardano principalmente la schermata home e il layout dei messaggi.
Aggiornamento
Microsoft ha comunicato che GPT-4o è disponibile in anteprima su Azure AI Service.