Studio su larga scala: renderi gli chatbot u…

Uno studio su larga scala mostra che il processo di addestramento che trasforma i modelli linguistici di base in chatbot utili indebolisce la loro capacità di simulare behavior umani. L’effetto peggiora con ogni nuova generazione.

Usi dei modelli linguistici per simulazioni umane

I modelli linguistici vengono sempre più utilizzati come sostituti dei soggetti umani per prevedere reazioni a interventi politici, simulare addestramento clinico per psichiatri, o per modellare come gli studenti imparano.

Sullo studio partecipano un consorzio internazionale di ricerca con ricercatori da Helmholtz Munich. L’esito del loro lavoro: i passi di addestramento che trasformano i modelli linguistici in utili assistenti li rendono peggio nei comportamenti umani.

Psych-201: set di dati per analisi comportamentale

Lo studio si basa su un dataset, Psych-201, che comprende trascrizioni da sperimenti comportamentali. Contiene circa 208.000 partecipanti e 26 milioni di risposte da centinaia di sperimenti, molto più esteso rispetto ad altre raccolte disponibili.

Ogni punto dati cattura una partecipazione completa, insieme ad informazioni metadatatiche dettagliate come età, nazionalità, risposte a questionari, e altre caratteristiche. Il set di dati è stato assemblato attraverso una collaborazione aperta tra ricercatori di oltre 35 istituti.

Confronto tra modelli base e addestrati

I ricercatori hanno confrontato modelli dei gruppi Qwen3, Llama3, e OLMo 3. Sono stati testati modelli base e le loro varianti raffinate. I modelli base vengono addestrati per prevedere la prossima parola nel testo.

Successivi processi di addestramento producono versioni adattate al seguire istruzioni, alla logica o al processamento di immagini. L’indicatore di misura utilizzato è stato la capacità dei modelli di prevedere le risposte effettive date dai partecipanti umani.

Nella famiglia di tutti e tre i modelli, quelli base sono risultati essere migliori dei varianti addestrati per il comportamento umano. L’effetto si manifesta in ogni obiettivo comune di addestramento, colpendo di più i modelli di ragionamento, seguìti dall’addestramento alle istruzioni e estensioni visive. In quasi ogni confronto diretto, i modelli base hanno superato le loro controparti specializzate.

Analisi e considerazioni deterministe

Un chiaro spunto di contestazione: forse i modelli specializzati rispondono in modo troppo deterministico, mancando la varietà delle risposte umane. I ricercatori hanno testato questa ipotesi effettuando un’analisi sulla accuratezza su insiemi con risposte discrete.

I modelli dopo l’addestramento hanno effettivamente mostrato una performance inferiore, rendendo poco probabile che il determinismo sia l’unica spiegazione.

Widening gap con la generazione dei modelli

I modelli base migliorano con ogni generazione, passando da Qwen2 a Qwen2.5 e Qwen3, diventando sempre più bravi a prevedere il comportamento umano. La distanza tra i modelli base e le loro versioni addestrate però cresce. Misure di avanzamento nell’addestramento successivo aggravano il divario dal comportamento umano.

La distorsione più evidente si verifica in compiti di linguaggio e ragionamento. Una spiegazione plausibile fornita è che i modelli base siano modelli fondati sul linguaggio umano, adatti quindi ai task linguistici. Tecniche post-addestramento come il reinforcement learning basato su feedback umano li spingono lontano da questo obiettivo originale verso risposte più user-friendly o normativamente corrette.

La decisione umana e l’addestramento razionale

Nel ragionamento, le decisioni umane sono influenzate da euristiche e bias sistematici, che i modelli base sembrano riconoscere. L’addestramento al ragionamento invece ottimizza per risposte logicamente corrette, oscurando appunto le piccole abitudini umane cruciali per la simulazione di comportamenti.

Un trucco popolare non funziona

Un’altra metodologia largamente utilizzata in studio: fornire ai modelli informazioni specifiche per metterli in un certo ruolo. In questo lavoro si è presentato come un formato ad intervista, dove dettagli demografici su ogni persona erano anteposti all’esperimento.

Nella sperimentazione, i prompt prevedevano inclusione di età, sesso, nazionalità, livello di istruzione, diagnosi cliniche e punteggi da questionari. L’effetto però è stato praticamente nullo. Questo risultato si è verificato anche quando l’analisi è stata limitata agli esperimenti di psicologia evolutiva, dove le differenze di età sarebbero state indicative.

Centaur mostra addestramenti mirati

Gli autori vedono i loro risultati come una variante di un problema noto: l’addestramento ulteriore verso obiettivi specifici può degradare le capacità acquisite in pretraining. Per testare se questo è un limite insormontabile, i ricercatori hanno esaminato Centaur — un modello specificatamente raffinato su parte dei dati comportamentali.

Centaur ha mostrato una accordo molto più alto con il comportamento umano anche su compiti nuovi non inclusi nel suo training. L’addestramento ulteriore quindi può aiutare, purché mirato a simulazioni comportamentali invece che a correttezza logica.

Raccomandazioni pratiche di ricerca

Per l’esperienza nella ricerca, la conseguenza è chiara: i modelli assistentici facilmente disponibili non sono automaticamente la scelta migliore per simulazioni di comportamento. I ricercatori raccomandano i modelli base o varianti specificati per simulazioni comportamentali. Il codice e i dati sono disponibili su Hugging Face e GitHub.

Le problematiche note dei modelli AI

È noto che i modelli AI abbiano limiti quando vengono utilizzati come soggetti digitali. Un recente studio di nove modelli open-source ha mostrato che rendere l’output più umano costa precisione factuale; e un classificatore ha potuto riconoscere risposte AI con una precisione del 70-80%. Anche la tecnica di persona si è rivelata meno efficace del previsto.

Un altro studio ha scoperto che i modelli non riescono nemmeno a mimare bene studenti deboli o forti su comando; i tassi di successo variavano per meno di mezzo punto percentuale. In termini di ragionamento, persiste un abisso: l'analisi di oltre 170.000 tracce di ragionamento ha mostrato che i modelli di ragionamento pensano in modo diverso dagli umani, cadendo in un certo genere di automatismo sequenziale.