Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Each language version is independently generated for its own context, not a direct translation.

Ecco una spiegazione semplice e creativa dello studio, pensata per chiunque, anche senza competenze tecniche.

🕵️‍♂️ Il Detective delle Citazioni: Quando l'IA "Inventa" la Realtà

Immagina di avere un assistente di ricerca super intelligente, un robot che scrive saggi accademici alla velocità della luce. Sembra perfetto: scrive frasi fluide, usa un linguaggio sofisticato e, soprattutto, cita decine di libri e articoli per supportare le sue affermazioni.

Il problema? Spesso queste citazioni non esistono. È come se il tuo assistente ti desse un indirizzo per una biblioteca che, in realtà, è solo un muro di mattoni dipinto di rosso.

Questo studio ha messo alla prova quattro di questi "assistenti robot" (due molto costosi e famosi, due gratuiti e open-source) per vedere quanto sono bravi a non inventarsi le fonti quando gli si mettono dei vincoli (regole) stretti.

🎭 La Metafora: Il Ristorante con Menu Finto

Immagina che questi modelli di IA siano chef che devono preparare un piatto (un paragrafo accademico) e devono obbligatoriamente elencare gli ingredienti (le citazioni) usati.

Lo studio ha chiesto agli chef di cucinare in cinque situazioni diverse (le "Regime di Prompting"):

Base: "Fammi un piatto con 5 ingredienti."
Temporale: "Fammi un piatto con 5 ingredienti, ma devono essere stati inventati solo tra il 2020 e il 2025." (Qui è dove si fa la magia nera).
Sondaggio: "Fammi un piatto complesso con 8 ingredienti, divisi in 4 categorie diverse."
Segreto: "Non dire che hai letto i tuoi libri di cucina, fingi di averli inventati tu."
Combo: "Fai tutto insieme: 8 ingredienti, recenti, divisi in categorie e senza dire da dove li hai presi."

Dopo aver cucinato, i ricercatori hanno agito come ispettori sanitari (usando database reali come Crossref e Semantic Scholar) per controllare se ogni ingrediente citato esisteva davvero.

🔍 Cosa hanno scoperto? (I Risultati in Pillole)

Ecco le scoperte principali, tradotte in linguaggio quotidiano:

1. L'Inganno Perfetto: "Sembra vero, ma non lo è"

Quando gli chef hanno dovuto rispettare la regola "Solo ingredienti recenti" (vincolo temporale), il disastro è stato totale.

Cosa è successo: Gli chef hanno scritto liste di ingredienti perfette, con nomi, date e numeri di pagina corretti. Sembravano tutti veri.
La realtà: Quando gli ispettori hanno controllato, nessuno di quegli ingredienti esisteva. Il 98% delle citazioni recenti erano fantasie.
La lezione: Se un'IA rispetta perfettamente la forma (la data, il formato), non significa che il contenuto sia vero. È come se qualcuno ti desse un passaporto con foto e timbri perfetti, ma la persona che c'è sotto non esista.

2. I "Cucchiaini Grigi": Le Citazioni Irrisolte

Circa il 40-60% delle citazioni non era né chiaramente vero né chiaramente falso. Erano "irrisolte".

L'analogia: Immagina di cercare un libro in biblioteca. Il bibliotecario ti dice: "Forse esiste, forse no, il titolo è simile ma l'autore è diverso".
Il rischio: Lo studio ha scoperto che, quando hanno controllato a mano queste citazioni "grigie", metà di esse erano inventate. Quindi, anche quelle che sembrano "forse vere" sono spesso trappole.

3. I Costosi vs. I Gratuiti

C'era una grande differenza tra i modelli "premium" (come Claude e GPT-4) e quelli "gratuiti" (come LLaMA e Qwen).

I Premium: Erano un po' più bravi a trovare fonti vere, ma comunque fallivano spesso (meno della metà delle citazioni erano vere).
I Gratuiti: Erano molto peggio. In alcune condizioni, quasi tutte le loro citazioni erano inventate.
La metafora: È come se un cuoco stellato (modello premium) sbagliasse il 60% delle ricette, mentre un cuoco apprendista (modello gratuito) sbagliasse il 95%. Entrambi sono pericolosi se non controlli il piatto.

4. Più regole = Più bugie

Più si chiedeva all'IA di rispettare regole complesse (date recenti + molte categorie + segreti), più l'IA iniziava a "allucinare" (inventare) con disperazione.

Anche quando sapevano di non poter trovare fonti vere, continuavano a inventarne di nuove per non smentire la richiesta. È come un bambino che, se gli chiedi di raccontare un'azione che non ha fatto, inizia a inventare dettagli sempre più assurdi pur di non dire "non lo so".

💡 Cosa significa per noi? (Il Consiglio Pratico)

Lo studio ci dà un messaggio molto chiaro, specialmente per chi lavora con la tecnologia o scrive saggi:

Non fidarti mai ciecamente: Se un'IA ti dà una lista di riferimenti bibliografici, non è una lista di fatti. È una lista di "sospetti".
Controlla sempre: Prima di usare quelle citazioni in un lavoro serio (come una tesi o un report aziendale), devi andare a verificare manualmente se quel libro o quell'articolo esiste davvero.
L'IA non è un bibliotecario: L'IA è bravissima a scrivere e a imitare lo stile, ma è pessima a ricordare i fatti precisi, specialmente se le si mettono i bastoni tra le ruote (vincoli di tempo o segreti).

In sintesi: L'Intelligenza Artificiale è come un attore molto talentuoso che recita una scena di un'indagine poliziesca. Può fingere di avere prove perfette, ma se non controlli se quelle prove esistono davvero, potresti finire per accusare un innocente o chiudere un caso sbagliato. Verifica sempre le fonti.

Each language version is independently generated for its own context, not a direct translation.

Ecco una sintesi tecnica dettagliata dello studio presentato nel paper, tradotta e strutturata in italiano.

Titolo dello Studio

Le Vincoli di Deployment Fanno Allucinare le Citazioni agli LLM? Uno Studio Empirico su Quattro Modelli e Cinque Regimi di Prompting

1. Il Problema

I Large Language Models (LLM) sono sempre più utilizzati per la stesura di testi accademici e per la sintesi di evidenze nell'Ingegneria del Software (SE). Tuttavia, soffrono di un problema critico: l'allucinazione di citazioni. I modelli generano riferimenti bibliografici che appaiono completi e legittimi (con autori, venue, DOI e URL), ma che in realtà non corrispondono a opere verificabili.

La ricerca si concentra su come i vincoli di deployment realistici (restrizioni temporali, pressioni di ampiezza tipiche dei sondaggi accademici e politiche di non divulgazione) influenzino la verificabilità delle citazioni in un setting "closed-book" (senza accesso a strumenti di ricerca esterni durante la generazione). La preoccupazione principale è che errori di questo tipo possano propagarsi attraverso le pipeline di revisione della letteratura e gli strumenti di ingegneria del software.

2. Metodologia

Gli autori hanno progettato un framework di verifica automatizzato e deterministico per valutare la qualità delle citazioni generate.

Dataset: 144 affermazioni (prompt) in stile domanda, distribuite su sei domini accademici (inclusi 24 specifici per Ingegneria del Software e Informatica).
Modelli Valutati:
- Proprietari: Claude Sonnet (Anthropic) e GPT-4o (OpenAI).
- Open-weight: LLaMA 3.1–8B (Meta) e Qwen 2.5–14B (Alibaba).
Regimi di Prompting (5 condizioni):
1. Baseline: Paragrafo accademico standard con 5 citazioni.
2. Temporale: Vincolo di una finestra temporale stretta per la pubblicazione (es. ultimi 5 anni).
3. Survey: Sintesi di lavori correlati organizzata in categorie, richiedente 8 citazioni (pressione di ampiezza).
4. Non-Disclosure: Istruzione esplicita di non affermare l'accesso a documenti memorizzati nel training.
5. Combo: Combinazione di tutti e tre i vincoli sopra.
Pipeline di Verifica:
- Estrazione strutturata delle citazioni (titolo, autori, anno, DOI, venue).
- Query su due database accademici: Crossref e Semantic Scholar.
- Scoring: Un punteggio ponderato basato sulla similarità fuzzy del titolo (60%), sovrapposizione degli autori (20%), accordo sull'anno (15%) e similarità della venue (5%).
- Classificazione in tre categorie:
  1. Existing (Esistente): Punteggio $\ge$ 0.85 (corrispondenza verificata).
  2. Unresolved (Non Risolto): Punteggio tra 0.60 e 0.85 (incertezza, potrebbe essere reale ma non confermato o parzialmente allucinato).
  3. Fabricated (Falsificata): Punteggio < 0.60 o nessun candidato trovato.
Validazione: Un audit manuale su 100 citazioni ha mostrato un accordo del 75% con le etichette umane (Cohen's $\kappa$ = 0.63), confermando che la categoria "Unresolved" contiene una significativa percentuale di falsificazioni.

3. Risultati Chiave

Lo studio ha generato 17.443 citazioni totali. I risultati principali sono:

Nessun modello supera il 50% di verificabilità: Nessun modello, in nessuna condizione, ha raggiunto un tasso di citazioni esistenti superiore a 0.50. Il picco è stato del 0.475 per Claude Sonnet nella condizione "Survey".
Vincoli Temporali: Hanno causato il calo più drastico nella verificabilità. Ad esempio, GPT-4o è sceso da un tasso di base del 23.5% a soli 1.9% sotto vincoli temporali. I modelli hanno rispettato il formato e l'anno richiesto, ma le citazioni erano quasi interamente inventate.
Divario Proprietario vs. Open-weight: I modelli proprietari (Claude, GPT-4o) hanno performato significativamente meglio degli open-weight (LLaMA, Qwen), con un divario che arriva fino a +0.310 nel tasso di esistenza. Tuttavia, anche i modelli proprietari hanno fallito in modo sostanziale.
Condizione "Combo": La combinazione di tutti i vincoli ha prodotto i risultati peggiori, con tre dei quattro modelli che hanno raggiunto tassi di esistenza vicini allo zero.
Il problema "Unresolved": Tra il 36% e il 61% delle citazioni sono finite nella categoria "Unresolved". L'audit manuale ha rivelato che quasi la metà di queste (16 su 35 nel campione) erano in realtà falsificazioni. Questo suggerisce che un'analisi binaria (reale/falso) nasconderebbe un enorme rischio.
Compliance del Formato: I modelli mantengono una perfetta conformità al formato bibliografico (campi ben strutturati) anche quando il contenuto è completamente inventato, rendendo difficile il rilevamento tramite controlli superficiali.

4. Contributi Principali

Dataset Curato: Una raccolta di 144 affermazioni coprenti sei domini accademici, inclusi 24 specifici per SE/CS.
Pipeline di Verifica Automatizzata: Un sistema deterministico che utilizza Crossref e Semantic Scholar con una tassonomia a tre vie (Esistente, Non Risolto, Falsificata), validata empiricamente.
Analisi Empirica dei Vincoli: La prima valutazione sistematica di come vincoli di deployment specifici (temporali, di ampiezza, etici) degradino la qualità delle citazioni, evidenziando che la conformità al formato non garantisce l'accuratezza.

5. Significato e Implicazioni

Per l'Ingegneria del Software (SE): Poiché le revisioni sistematiche della letteratura (SLR) sono fondamentali in SE, l'uso di LLM per generare bibliografie senza verifica post-hoc è pericoloso. I vincoli tipici dei sondaggi accademici (Survey) amplificano il divario tra modelli proprietari e open-source.
Sviluppatori di Strumenti: La semplice soddisfazione dei vincoli del prompt (es. "cita 5 paper del 2024") non è un indicatore di qualità. È necessario implementare pipeline di verifica post-hoc contro più database.
Ricerca Futura: La soluzione all'allucinazione delle citazioni non risiede nel solo prompting, ma richiede architetture Retrieval-Augmented Generation (RAG) o meccanismi di verifica integrati.
Raccomandazione Pratica: Qualsiasi lista di riferimenti generata da un LLM deve essere trattata come una bozza e verificata indipendentemente (tramite DOI, Crossref, DBLP) prima di essere inclusa in pubblicazioni o report tecnici.

In sintesi, lo studio dimostra che i vincoli operativi reali peggiorano drasticamente l'affidabilità delle citazioni degli LLM, creando un rischio elevato di diffusione di letteratura fittizia, specialmente quando i modelli cercano di rispettare restrizioni temporali o di ampiezza senza accesso a fonti esterne.