I nuovi modelli di riconoscimento vocale di …

Corti, azienda danese che si occupa di intelligenza artificiale per il settore sanitario, ha lanciato Symphony for Speech-to-Text, un nuovo modello di riconoscimento vocale progettato appositamente per la trascrizione in tempo reale, conversazioni e audio in batch — e la sua accuratezza nei casi specifici è una delle più alte mai registrate.

Sono diversi i fattori che rendono questo lancio significativo. Andreas Cleve, cofondatore e CEO di Corti, ha commentato: "Stiamo mettendo a punto modelli che possono essere fidati totalmente da medici e pazienti, e da tutto il sistema sanitario". I dati di performance che l'azienda ha presentato mettono a nudo lo stato attuale dell'AI aziendale: nei settori molto regolamentati e specializzati, i modelli specifici battono regolarmente quelli generali.

Nella sua ricerca appena pubblicata, Corti ha rivelato che i nuovi modelli per il riconoscimento vocale riducono l'errore di trascrizione (WER) fino al 93% rispetto ai modelli di riconoscimento vocale principali disponibili oggi. In particolare, il modello di Corti ha conseguito uno straordinario 1.4% di WER per il linguaggio medico in inglese. A confronto, OpenAI ha registrato un 17.7%, ElevenLabs un 18.1%, Whisper un 17.4% e Parakeet un 18.9%.

L'era autonoma richiede input perfetti

Il lancio di Symphony for Speech-to-Text segna una svolta importante nel campo dell'utilizzo della tecnologia vocale nel settore sanitario. Se sino a poco tempo fa la trascrizione vocale si limitava a creare documenti da visionare ai medici—un moderno sostitutivo del notaio—oggi entra in gioco un altro paradigma, chiamato "agentic". In questa fase, gli agenti autonomi AI collaborano nel processo decisionale medico, nell'amministrazione dei dati sanitari e nella fornitura di supporto in tempo reale.

“Il discorso verbale rimane una delle informazioni più importanti della sanità,” ha dichiarato Cleve. “Cambia però il suo utilizzo. Non è più sufficiente produrre una trascrizione fedele—abbiamo bisogno di informazioni cliniche precise per i modelli AI.” Questo spiega perché i tassi elevati di errore possono rappresentare un rischio serio. Quando il modello riconosce erroneamente dosi di farmaci o malattie, ogni livello successivo della catena cade in errore.

Riconoscimento vocale avanzato

I dati di Corti mostrano che Symphony for Speech-to-Text raggiunge un tasso di 98.3% nella riconoscibilità di entità formattate come dosaggi medicina, misure o date. Gli standard di trascrizione generale riescono a malapena il 44.3% su tali parametri. “Questa differenza del 54% è la linea divisoria tra uno strumento che risparmia tempo al medico e uno che costituisce un rischio legale,” ha aggiunto un esperto del settore.

Un attacco ai leader

Sebbene i confronti con OpenAI e ElevenLabs siano impressionanti, Corti punta anche agli incumbent del settore. Per anni, il gold standard per la trascrizione medica era Dragon Medical One. Tuttavia, questi strumenti non erano adatti per il supporto in tempo reale o per l'analisi di conversazioni complesse. I test hanno mostrato che Corti abbatta un WER del 4.6%—risultato migliore rispetto alle 5.7% di Dragon Medical One.

Risultati chiave:

Corti: 4.6% WER in real-world dictation (inglese)
Dragon Medical One: 5.7% WER
Simile per termini medicinali

Offrendo questa precisione via API, Corti permette agli sviluppatori e ai fornitori di piattaforme sanitarie (EHR) di creare strumenti che eccedono i limiti precedenti.

Una decisione globale

I bisogni di salute non si limitano al solo inglese. In ambienti multilingue complicati, Corti si è rivelata incredibilmente efficiente. In Svizzera, ad esempio, i modelli Symphony di Corti hanno ottenuto un WER del 2.4% in tedesco e del 3.9% in francese, rispetto all'13.0% e al 10.6% dei sistemi principali non svizzeri.

Risultati in tedesco e francese:

Germano: Corti 2.4%, sistema competitivo 13.0%
Francese: Corti 3.9%, sistema competitivo 10.6%

Questo permette di usare Symphony per applicazioni multilingue che supportano l'uso quotidiano dei pazienti di tutto il mondo.

Un paradigma di AI specializzata

Symphony for Speech-to-Text non è un annuncio isolato, bensì il punto culminante di una strategia di AI verticale avanzata da Corti in poche settimane. La piattaforma Symphony, che supporta applicazioni cliniche e amministrative, sta provando l'efficacia di modelli AI verticali rispetto ai modelli orizzontali di aziende più grandi.

Nel mese di aprile, la Symphony for Medical Coding di Corti ha migliorato il 25% le prestazioni di modelli generalisti. Solo la settimana scorsa, il modello principale ha battuto OpenAI stesso in HealthBench Professional. “Il nostro obiettivo non è vendere modelli—vogliamo che le persone creino app sopra i nostri modelli, così da rendere la tecnologia accessibile dove necessario,” ha osservato Cleve.

Strategia futura:

Continua lo sviluppo di modelli verticali ad alte prestazioni
Sviluppo in lingue e contesti globali
Collaborazione con EHR vendor e piattaforme di cura virtuale

Con questa strategia, l’idea di un'AI che non solo copia, ma arricchisce i processi di salute potrebbe diventare realtà in breve tempo.