Over-Searching in Search-Augmented Large Language Models

Questo lavoro analizza sistematicamente il fenomeno dell'"over-searching" nei modelli linguistici potenziati dalla ricerca, evidenziando come l'invocazione eccessiva degli strumenti di ricerca comprometta l'efficienza e la qualità delle risposte, proponendo al contempo una nuova metrica di valutazione (TPC), strategie di mitigazione e un nuovo dataset (OverSearchQA) per promuovere lo sviluppo di sistemi più efficienti.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra

Pubblicato 2026-03-12
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un assistente personale super-intelligente, un "cervello digitale" (il modello linguistico), che ha accesso a un'enorme biblioteca di informazioni su internet (la funzione di ricerca).

Il problema che questo studio di Apple e dell'Università di Duke ha scoperto è che questo assistente, quando gli chiedi qualcosa, a volte esagera.

Ecco la spiegazione semplice, con qualche metafora per chiarire il concetto.

1. Il Problema: "L'Assistente che non sa quando fermarsi"

Immagina di chiedere al tuo assistente: "Chi sarà il presidente degli Stati Uniti nel 2075?".
Un essere umano ragionevole direbbe: "Non lo so, è il futuro, nessuno può saperlo".

Ma il modello con la ricerca attiva fa così:

  1. Pensa: "Forse non lo so, ma se cerco su internet..."
  2. Cerca su Google.
  3. Trova articoli di fantascienza o speculazioni.
  4. Pensa: "Oh, ho trovato qualcosa! Devo cercare ancora per essere sicuro..."
  5. Cerca di nuovo, e di nuovo, e di nuovo.

Alla fine, dopo aver speso soldi e tempo per 10 ricerche inutili, ti risponde con una certezza falsa: "Secondo le mie ricerche, sarà il signor X".
Questo è il "Over-Searching" (la ricerca eccessiva). Il modello continua a cercare anche quando la risposta è "non esiste" o "non si può sapere".

2. La Metafora del "Cacciatore di Funghi"

Immagina il modello come un cacciatore di funghi (il modello) che ha una mappa e un cane da caccia (la ricerca internet).

  • La situazione ideale: Se c'è un fungo (una domanda con risposta), il cane lo trova subito. Il cacciatore lo raccoglie e torna a casa. Ottimo!
  • La situazione del "Over-Searching": Se il cacciatore è in un campo dove non ci sono funghi (una domanda impossibile, come "com'è il sapore di un colore?"), il cane inizia a fiutare disperatamente. Il cacciatore, invece di dire "Qui non c'è nulla", continua a far correre il cane per ore, consumando energie (soldi e tempo di calcolo).
  • Il risultato: Alla fine, il cane trova una foglia secca o un sasso e il cacciatore, stanco e confuso, ti dice: "Ecco il fungo!". È una risposta sbagliata (allucinazione) costata un sacco di energie.

3. Cosa hanno scoperto gli scienziati?

Gli autori hanno fatto degli esperimenti con diversi modelli (come GPT-4o, Kimi, Qwen) e hanno notato tre cose strane:

  1. Funziona per le domande facili, male per quelle impossibili: Se chiedi "Chi ha vinto i Mondili 2022?", la ricerca aiuta. Se chiedi "Chi vincerà i Mondili 2050?", la ricerca fa solo confusione e il modello smette di dire "Non lo so".
  2. I modelli "pensanti" sono i peggiori: I modelli più complessi, quelli che fanno lunghi ragionamenti prima di rispondere, tendono a cercare ancora di più quando non dovrebbero. Più pensano, più cercano, e più si confondono.
  3. Il "Snowball" (Valanga) nelle conversazioni: Se in una chat hai fatto 5 domande a cui si può rispondere, il modello entra in modalità "cacciatore attivo". Se poi gli fai una domanda impossibile, lui continua a cercare come se fosse una domanda normale, perché si è "riscaldato" sulle risposte precedenti.

4. La nuova regola: "Costo per Risposta Giusta"

Per misurare questo spreco, hanno inventato un nuovo metro chiamato TPC (Token per Correttezza).
È come misurare quanto spendi in benzina per arrivare a destinazione.

  • Se fai 100 km per trovare un panino (risposta sbagliata o inutile), hai sprecato benzina.
  • Se il modello fa 10 ricerche per dirti "Non lo so", sta sprecando "benzina digitale" (token e soldi).

5. Come si risolve? (O almeno, come si prova a risolvere)

Hanno provato due strategie, ma nessuna è perfetta:

  • Dire al modello di fermarsi: Gli hanno detto "Se non trovi la risposta, dì 'Non lo so'". Funziona un po', ma a volte il modello diventa troppo timido e non risponde nemmeno a cose che sa.
  • Insegnare al cane a fiutare il "nulla": Hanno provato a mettere nella biblioteca (internet) dei cartelli che dicono "Qui non c'è nulla". Funziona se il modello legge quei cartelli, ma spesso li ignora perché è troppo concentrato a cercare "qualcosa".

Conclusione

In sintesi, questo studio ci dice che dare agli AI un accesso illimitato a internet non li rende sempre più intelligenti. A volte, li rende solo più ostinati e costosi.

Il vero problema non è che il modello non sa rispondere, ma che non sa quando smettere di cercare. Come un bambino che continua a scavare nella sabbia anche quando ha capito che non c'è un tesoro, sperando che la prossima pala lo trovi.

Il messaggio finale: Per avere un assistente AI davvero efficiente, dobbiamo insegnargli non solo a cercare, ma anche a dire con sicurezza: "Ho cercato abbastanza, e la risposta è che non esiste".