I modelli di intelligenza artificiale spesso forniscono le risposte corrette, ma indicano erroneamente le rispettive fonti. Questa tendenza, chiamata “attribution hallucination”, ha rivelato un problema fondamentale: il corretto riferimento delle risposte non va automaticamente di pari passo con la loro esattezza.

Un benchmark per rivelare le attribuzioni errate

I ricercatori dell'Università di Pechino e del Shanghai Artificial Intelligence Laboratory hanno creato un nuovo benchmark chiamato CiteVQA per evidenziare il divario tra risposte accurate e attribuzione precisa. CiteVQA controlla sia la risposta che la posizione esatta delle informazioni nel documento. Una risposta esatta combinata con un riferimento errato ottiene un punteggio SAA di 0, il che implica che solo una citazione corretta conta.

La valutazione basata su una metrica rigorosa

Il benchmark standard per l'analisi documentale, ad esempio DocVQA o MMLongBench-Doc, valuta solo la risposta finale, senza tener conto di come sia stata ottenuta. Questo non è sufficiente per settori come il diritto, l'audit finanziario o la medicina, dove la tracciabilità è cruciale per rendere attendibili le informazioni fornite.

Un test con criteri precisi

CiteVQA costringe i modelli a fornire una traccia esatta del documento come paragrafo, tabella, o figura. Un numero di pagina non è sufficiente. Il set di dati include 1.897 domande su 711 PDF da sette aree diverse: 451 in inglese e 260 in cinese. La media di pagina per documento è di 40,6, molto più lunga rispetto agli standard correnti.

Un pipeline automatizzato

Per creare effettivamente il set di dati, la squadra ha utilizzato un pipeline automatizzato. Si divide i documenti in elementi separati, utilizza modelli come Gemini 3.0 Flash per ricostruire la catena di evidenza, e controlla successivamente i pezzi effettivamente utili. Ogni documento è sottoposto a un test di rimozione: se il modello non può rispondere senza, allora quel documento è considerato fondamentale.

Nel processo finale, il pipeline toglie un documento alla volta per verificare se è effettivamente necessario. Questo approccio ha reso il processo intero completamente automatico e scalabile.

Strict Attributed Accuracy

La metrica principale è Strict Attributed Accuracy, dove il modello guadagna punti solo quando la risposta e la citazione sono entrambe corrette. Venti modelli diversi sono stati testati, e il risultato ha evidenziato grandi lacune.

Risultati dei modelli testati

Gemini-3.1-Pro-Preview si è classificato al primo posto con un punteggio di 76 su 100. GPT-5.4, invece, è sceso da un ottimo 87.1 a soli 59 quando è stato necessario fornire correttamente le fonti.

I modelli open-source hanno ottenuto risultati peggiori. Qwen3-VL-235B-A22B, il miglior sistema open di libero utilizzo, ha ottenuto 22.5 punti, mentre i modelli open-source più piccoli hanno generalmente ottenuto punteggi sotto i 10, ritenuti “estremamente rischiosi” per settori regolamentati.

Un problema evidente: neppure individuare la pagina corretta riesce sempre. Gemini 3 riesce a trovare la pagina corretta in oltre l’87% dei casi, ma Qwen3-VL-235B-A22B riesce a meno dell'58% dei casi.

Performance in base tipo di documento

I test hanno mostrato che i modelli si comportano meglio con articoli accademici, che tendono ad avere layout puliti. Quelli con layout più caotici, come articoli di giornale, bloccano persino i modelli top a intorno a 63 punti.

Le citazioni sono un collo di bottiglia

Uno studio per analizzare questa discrepanza ha stretto l'ambito di ricerca in modo artificiale, limitando i modelli a cercare nella pagina o nel documento corretti. Il salto di prestazione è risultato considerevole, per esempio da 47 a 60 in alcuni casi.

La conclusione è inequivocabile: se un modello trova la pagina giusta, fornisce una risposta migliore. Le informazioni precise migliorano la qualità, non solo la trasparenza. Questo sottolinea il motivo per cui la “context engineering” è tanto importante: il modello funziona meglio quando gli viene fornita esattamente l'informazione necessaria.

La citazione non è solo per costruire fiducia

Le citazioni corrette migliorano l'accuratezza e la precisione delle risposte. In questo contesto il lavoro svolto dai ricercatori non riguarda soltanto la credibilità, ma anche la capacità di fornire risposte corrette. Il code e i dettagli del set di dati sono disponibili su GitHub, mentre il dataset completo si trova su Hugging Face.

Altri studi correlati

I ricercatori hanno precedentemente pubblicato NeedleBench, un’altra iniziativa che mostra come i modelli faticano a reperire informazioni in testi molto lunghi. Anche FACTS Grounding, studiato da Google Deepmind, ha mostrato che persino Gemini 3 Pro e GPT-5.1 non riescono a fornire risposte totalmente tracciate.

OpenAI, ha analizzato i motivi per cui i modelli non ammettono quando non sanno la risposta. L’azienda ha concluso che il problema può essere visto come una disfunzione di incentivi: durante l’addestramento e la valutazione, vengono premiati risposte sicure e penalizzate quelle indecise.

Questo tipo di motivazione probabilmente alimenta anche il fenomeno delle “hallucinazioni di attribuzione”, ormai rilevate con metodi rigorosi come CiteVQA.