Le imprese che costruiscono e distribuiscono agenti di intelligenza artificiale affrontano un problema comune: impiega troppo tempo agli sviluppatori individuare gli errori commessi da un agente. Questo ciclo tende a perpetuarsi, specialmente quando manca un intervento umano ad ogni passaggio. LangSmith, una piattaforma di monitoraggio e valutazione dell’AIA da LangChain, ha lanciato una nuova funzionalità in beta pubblica che potrebbe rendere questa problematica più gestibile.

LangSmith Engine automatizza tutta la catena rilevando gli errori in produzione, diagnosticando le cause fondamentali rispetto al codice esistente, proponendo un fix e prevenendo la regressione. Tutto questo avviene in un'unica passata automatica.

LangSmith Engine offre agli ingegneri dell'AI un percorso più veloce per diagnosticare i problemi ma lancia in un mercato già saturato: Anthropic, OpenAI e Google integrano osservabilità e valutazione nei loro stessi strumenti.

Rilevamento dei fallimenti da LangSmith Engine

LangChain ha spiegato in un post sul blog che il ciclo classico di sviluppo degli agenti inizia con il tracciamento dell'agente per comprendere il suo comportamento, seguito da identificazione delle lacune, modifiche ai prompt e agli strumenti, e creazione di dataset veri. Gli sviluppatori eseguono poi esperimenti e verificano regressi prima di pubblicare l’agente.

Il problema è che i clienti spesso riscontrano problemi quando il tracciamento non rileva schemi non corretti, la replica degli errori è difficile da individuare, e manca un valutatore mirato per rilevare il solito problema in produzione.

LangSmith Engine funziona monitorando tracce in produzione per diversi segnali, come "errori espliciti, fallimenti dei valutatori online, anomali, feedback negativi utenti e comportamenti insoliti come l’utente che chiede domande che l'agente non è stato programmato a rispondere", come affermato nel post del blog.

L’Engine esaminerà il codice attivo, determinerà il colpevole e compilerà una richiesta di pull prima di proporre un valutatore personalizzato per quel modello specifico di fallimento. L'intervento umano avviene durante la fase di approvazione.

è costruito sull’esistente struttura di tracciamento e valutazione di LangSmith e funziona anche con i risultati dei valutatori dell'impresa.

A differenza degli strumenti di osservabilità come Weights & Biases, Arize Phoenix e Honeyhive, LangSmith Engine completa la catena in modo automatico — rilevare il fallimento, diagnosticare la causa principale, formulare una risoluzione — e coinvolge l’umano solo durante la fase di approvazione.

Fornitori con valutatori integrati

Sebbene LangSmith abbia individuato questo ciclo di valutazione come un’esigenza per molte imprese, Engine esce in un periodo in cui i fornitori principali stanno offrendo strumenti di osservabilità all'interno del loro stesso ecosistema. Questo significa che le imprese potrebbero preferire usare una piattaforma integrata end-to-end anziché aggiungere LangSmith Engine alle loro piattaforme esistenti.

Anthropic presenta

    • Claude Managed Agents

, una suite che unisce deployment agente, valutazione e orchestrator in una singola piattaforma.

OpenAI presenta

    • Frontier

, una simile piattaforma per costruire, governare e valutare agenti aziendali — anche se entrambi hanno ricevuto critiche da imprese scettiche rispetto all'impegno con un solo fornitore.

Tuttavia, i professionisti osservano che non tutti vorranno integrare valutazione e osservabilità in una singola piattaforma.

Leigh Coney, fondatore e consulente principale di Workwise Solutions, ha dichiarato a VentureBeat che gli strumenti terzi per l’osservabilità sono la norma per molte imprese.

“Una fondazione con cui lavoro utilizza Claude per l’analisi e GPT per un flusso di lavoro separato. Se l’osservabilità risiede all’interno degli strumenti di ogni fornitore, adesso hai due sistemi che non possono comunicare. La tua squadra di conformità non può produrre un tracciato audit unificato”, ha affermato. “Gli strumenti terzi si mantengono vivi perché il modello multi-modello è già la norma in ambito aziendale, e qualcuno deve occuparsi dei diversi fornitori.”

Jessica Arredondo Murphy, CEO di True Fit, ha aggiunto che piattaforme autonome come LangSmith devono dimostrare alle aziende di poter "rispondere alla domanda a lungo termine se diventeranno lo strato operativo tra modelli diversi per qualità e affidabilità”.

“Le aziende non si stanno concentrando sugli strumenti forniti direttamente dal fornitore del modello tanto velocemente quanto vorrebbero i fornitori stessi. Ciò che osservo è un approccio pratico: il team utilizza gli strumenti primari per un rapido onboarding e per il debug iniziale, ma appena si preoccupa di affidabilità in produzione, governance e flessibilità nel lungo termine, inclinano verso un livello di valutazione e osservabilità più neutro.”

Disponibilità

LangSmith Engine è ora disponibile in beta pubblica. I team possono collegare un progetto di tracciamento, collegare opzionalmente il loro repository e Engine inizierà automaticamente a presentare problemi dalle tracce in produzione.