Intercom e OpenAI: tre lezioni per un'IA sos…

Nel 2022, quando OpenAI ha lanciato GPT-4, Intercom non si è limitata a osservare passivamente; l'azienda era pronta a creare e a innovare. Nel giro di poche ore dal rilascio del modello, questa azienda leader nel software per il servizio clienti ha iniziato a sperimentare intensamente, e in soli quattro mesi ha lanciato Fin, un agente di intelligenza artificiale che oggi risolve milioni di richieste al mese per i suoi clienti in tutto il mondo. Questo slancio iniziale non è stato un caso isolato, bensì il risultato di una profonda comprensione del potenziale trasformativo dell'IA. Con l'avanzamento dei grandi modelli linguistici (LLM), Intercom ha intuito che l'intelligenza artificiale avrebbe rivoluzionato l'esperienza del cliente per sempre, imponendo un'azione decisa e rapida.

I dirigenti dell'azienda hanno reagito con notevole prontezza e lungimiranza. Hanno istituito un gruppo di lavoro interdisciplinare dedicato all'IA, hanno preso la difficile decisione di annullare progetti in corso legati ad altre tecnologie e hanno destinato un investimento significativo di 100 milioni di dollari per ristrutturare l'intera azienda attorno alle capacità dell'intelligenza artificiale. Questa decisione audace ha innescato cambiamenti importanti e pervasivi all'interno di Intercom. I team di prodotto sono stati riorganizzati per allinearsi alla nuova visione basata sull'IA, è stata avviata una strategia di assistenza clienti completamente incentrata sull'intelligenza artificiale e, aspetto cruciale, è stata progettata una piattaforma robusta per consentire a Fin di gestire volumi elevatissimi di traffico e di affrontare le richieste più complesse e sfaccettate dei clienti. L'esperienza di Intercom, ricca di successi e di sfide superate, offre preziose lezioni che possono essere applicate da qualsiasi team, indipendentemente dal proprio punto di partenza nel viaggio dell'IA. Qui di seguito, esploreremo i tre insegnamenti chiave emersi da questa trasformazione.

“L'IA deve essere incorporata fin dall'inizio; non può essere un elemento aggiunto.”

Paul Adams, capo prodotto, Intercom

Intercom valuta i modelli fin dall'inizio, con frequenza, e impara molto dal proprio lavoro.

Il team di Intercom non ha perso tempo e si è immerso immediatamente nella sperimentazione con i modelli generativi. Questa esperienza pratica è stata fondamentale per identificare le limitazioni intrinseche dei modelli disponibili e, contemporaneamente, per individuare nuove e promettenti opportunità di applicazione. Quando GPT-4 è stato reso disponibile all'inizio del 2023, Intercom era già preparata e in posizione di vantaggio. Ciò ha permesso loro di lanciare Fin in meno di quattro mesi, e da allora non hanno mai rallentato il ritmo dell'innovazione e dello sviluppo.

“Quello che abbiamo fatto è stato sfruttare GPT-3.5 per mantenere conversazioni fluide con un tocco di magia, ma non era ancora abbastanza affidabile da poterlo affidare ai nostri clienti”, afferma Jordan Neill, vicepresidente senior dell'ingegneria di Intercom. E aggiunge: “Poiché avevamo già svolto il lavoro preparatorio, quando è arrivato GPT-4, sapevamo che era pronto e abbiamo lanciato Fin”. Questa testimonianza sottolinea l'importanza dell'iterazione e dell'apprendimento continuo con le tecnologie emergenti.

Grazie a questa agilità e comprensione approfondita, Intercom ha progettato Fin Tasks, un sistema innovativo che automatizza processi complessi come i rimborsi e il supporto tecnico avanzato. Inizialmente, il team aveva ipotizzato di utilizzare una "stack" basata sul recupero delle informazioni (RAG), ma i loro test rigorosi hanno rivelato che GPT-4.1 era in grado di gestire il compito in modo autonomo con un'alta affidabilità e una latenza significativamente inferiore. Questo ha rappresentato una svolta in termini di efficienza e prestazioni.

GPT-4.1 alimenta una parte sempre crescente dell'utilizzo dell'intelligenza artificiale di Intercom, inclusa la logica chiave che è alla base di Fin Tasks. Inoltre, il team ha fatto una scoperta fondamentale: l'aggiunta di "messaggi di catena di pensiero" (chain of thought messages) alle query non ragionate ha ridotto le differenze di prestazioni senza la necessità di ricorrere a processi RAG completi. Questo approccio ha permesso di ottimizzare ulteriormente l'efficacia dei modelli riducendo al contempo la complessità architetturale.

L'apprendimento chiave di Intercom in questo contesto è lampante: comprendere profondamente i propri modelli consente di adattarsi con maggiore rapidità ai progressi della tecnologia e di sfruttarne al meglio le potenzialità emergenti. Le valutazioni interne di Intercom hanno dimostrato che GPT-4.1 ha offerto la massima affidabilità nel completare le attività, pur comportando una riduzione dei costi del 20% rispetto a GPT-4o, evidenziando non solo miglioramenti prestazionali ma anche economici.

Se vuoi avanzare velocemente, devi misurare cosa funziona e perché.

La capacità di Intercom di adottare rapidamente nuovi modelli, modalità e architetture è un diretto risultato del suo rigoroso processo di valutazione. Ogni nuovo modello di OpenAI, prima della sua implementazione, viene sottoposto a test strutturati offline e a prove A/B dal vivo. Questi test sono progettati per valutare aspetti cruciali come il rispetto delle istruzioni, la precisione delle chiamate agli strumenti (tool calls) e la coerenza generale della risposta. Questo vale sia che il modello venga utilizzato per Fin Voice, con la sua API in tempo reale, sia per Fin Tasks, che si avvale di GPT-4.1.

In questo contesto, il team confronta i modelli con trascrizioni di interazioni di supporto reali, valutandone l'efficacia nella gestione di istruzioni complesse a più passaggi, come l'elaborazione di rimborsi, il mantenimento della voce e del tono distintivo del brand Fin, e l'esecuzione affidabile delle funzioni richieste. I risultati di queste valutazioni offline alimentano le prove A/B dal vivo, che mettono a confronto i tassi di risoluzione e la soddisfazione del cliente tra modelli diversi, come GPT-4 e GPT-4.1. Questo approccio basato sui dati permette di prendere decisioni informate e rapide.

Grazie a questo metodo sistematico, Intercom è riuscita a migrare da GPT-4 a GPT-4.1 in soli pochi giorni. Una volta confermati i miglioramenti nella gestione delle istruzioni e nell'esecuzione delle funzioni attraverso le valutazioni, il team ha implementato GPT-4.1 in Fin Tasks, riscontrando immediatamente miglioramenti sia nelle prestazioni del sistema che nella soddisfazione degli utenti finali. La velocità con cui sono stati in grado di effettuare questa transizione è un esempio lampante dell'efficacia del loro processo.

“Quando è uscito GPT-4.1, in 48 ore avevamo già i risultati della valutazione e, subito dopo, un piano di implementazione”, afferma Jordan Neill. “Ci siamo resi conto immediatamente che GPT-4.1 offriva una buona combinazione di intelligenza e latenza per le esigenze dei nostri clienti.” Questo dimostra come una chiara metodologia di valutazione possa tradursi in un vantaggio competitivo significativo.

Lo stesso processo di valutazione è stato fondamentale anche per aiutare Intercom a convalidare le nuove "istantanee" dei modelli vocali e a identificare miglioramenti in aspetti critici come la latenza, l'esecuzione delle funzioni e la conformità agli script predefiniti. Questi elementi sono essenziali affinché Fin Voice possa offrire un'assistenza telefonica di qualità tale da essere percepita come "umana".

Con l'obiettivo di catturare la dimensione aggiuntiva che la voce apporta all'interazione umana, Intercom ha deciso di ampliare la copertura delle proprie valutazioni. Per garantire un'esperienza del cliente di alta qualità e senza interruzioni, elementi di Fin Voice come la personalità, il tono, la gestione delle interruzioni e il rumore di fondo sono sistematicamente sottoposti a rigorose valutazioni. Questo approccio olistico assicura che ogni sfumatura dell'interazione vocale sia ottimizzata al massimo.

Intercom è pronta al cambiamento fin dal primo giorno, grazie alla progettazione di un'architettura sufficientemente flessibile e capace di evolvere di pari passo con i modelli da cui dipende.

Il sistema di Fin è, per sua natura, modulare, una caratteristica che gli consente di gestire senza soluzione di continuità molteplici modalità di comunicazione, tra cui la chat, l'e-mail e la voce. Ogni modalità presenta i propri vantaggi specifici in termini di latenza e complessità intrinseca. Questa architettura avanzata permette al sistema di instradare in modo intelligente le richieste al modello più adatto per ogni specifica attività, e di scambiare i modelli sottostanti senza la necessità di riconfigurare l'intero sistema. Questo design agnostico rispetto al modello è un pilastro fondamentale della loro flessibilità.

Stiamo parlando di una flessibilità non casuale, ma attentamente progettata e in costante evoluzione. L'architettura di Fin ha già raggiunto la sua terza iterazione maggiore, e la quarta è già in fase di sviluppo. Questo ciclo di miglioramento continuo è guidato dalla consapevolezza che il progresso dei modelli AI richiede una piattaforma altrettanto dinamica. I miglioramenti nei modelli AI significano che il team può aggiungere la complessità necessaria per sbloccare nuove funzionalità rivoluzionarie, ma allo stesso tempo, possono semplificare tutto ciò che è possibile, ottimizzando l'efficienza e la manutenibilità del sistema.

Questa adattabilità si è rivelata cruciale, in particolare per Fin Tasks. Il team era partito dal presupposto che Fin Tasks avrebbe richiesto un'architettura personalizzata basata sul recupero di informazioni (RAG). Questo approccio era considerato necessario per consentire a Fin di risolvere le complesse richieste dei clienti e di eseguire processi a più passaggi, come l'emissione di rimborsi, la modifica degli account o la risoluzione di problemi tecnici intricati.

Tuttavia, durante la fase di test, la capacità di GPT-4.1 di seguire le istruzioni ha superato ogni aspettativa. Il modello ha dimostrato di offrire la stessa affidabilità dei sistemi RAG, ma con una latenza notevolmente inferiore e a un costo significativamente più basso. Questa scoperta ha permesso a Intercom di riconsiderare e semplificare drasticamente la propria architettura per Fin Tasks, beneficiando di un modello più potente e versatile.

“A dire il vero, non credo che la gente parli abbastanza di GPT-4.1”, osserva Pratik Bothra, ingegnere principale di Machine Learning in Intercom. “Francamente, il profilo di latenza e costo ci ha sorpreso. Così, possiamo modificare la nostra architettura ed eliminare molte complessità”. Questa ammissione sottolinea l'importanza di rimanere aperti a nuove soluzioni e di testare a fondo le capacità emergenti dei modelli AI.

Fin AI Engine™ e la visione futura

Il team di Intercom è solo all'inizio del suo percorso. L'obiettivo dell'azienda è espandere l'ambito dell'IA ben oltre il mero supporto clienti, per guidare flussi di lavoro complessi e ottimizzare le operazioni in tutta l'azienda. Questo ambizioso progetto sarà reso possibile grazie all'utilizzo di modelli avanzati e a un'architettura modulare e agnostica rispetto ai modelli, con l'obiettivo ultimo di garantire risoluzioni più rapide e offrire esperienze cliente sempre migliori. La loro visione include l'impiego dell'IA in diverse aree chiave:

Equipe di supporto: La maggior parte delle richieste in arrivo, tramite chat, e-mail, voce e altri canali, sarà risolta dall'Agente Fin AI. Questo libererà il personale umano per concentrarsi su casi più complessi e a valore aggiunto, migliorando l'efficienza complessiva.
Equipe operative: L'automazione di flussi di lavoro complessi, come i rimborsi, le modifiche agli account e gli aggiornamenti delle sottoscrizioni, sarà gestita attraverso Fin Tasks. Questo ridurrà gli errori manuali e accelererà i processi aziendali critici.
Equipe di prodotto: Utilizzando il server MCP (Multi-Channel Platform) di Intercom, strumenti di intelligenza artificiale come ChatGPT potranno accedere in modo sicuro e contestualizzato ai dati dei clienti, alle conversazioni passate e ai ticket di supporto. Questo consentirà di ottenere intuizioni più profonde, personalizzare le esperienze e sviluppare prodotti più pertinenti e innovativi.