KohakuRAG: A simple RAG framework with hierarchical document indexing

Il paper presenta KohakuRAG, un framework RAG gerarchico che preserva la struttura dei documenti attraverso un'indicizzazione ad albero a quattro livelli e migliora la precisione delle citazioni tramite pianificazione delle query e inferenza d'insieme, ottenendo il primo posto nella sfida WattBot 2025.

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu

Pubblicato 2026-03-10
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover preparare una relazione tecnica super precisa su un argomento complesso, come il consumo energetico dei data center. Hai a disposizione 32 documenti enormi (come 32 enciclopedie piene di grafici, tabelle e numeri). Il tuo compito è rispondere a circa 300 domande tecniche, citando esattamente da quale pagina hai preso l'informazione, e se non trovi la risposta, devi ammettere onestamente "non lo so" invece di inventare qualcosa.

Se provassi a leggere tutto questo da solo, saresti sopraffatto. È qui che entra in gioco KohakuRAG, il sistema creato dal laboratorio Kohaku (dall'Università Nazionale Tsing Hua e altri) che ha vinto la competizione "WattBot 2025" arrivando primo sia nella classifica pubblica che in quella privata.

Ecco come funziona, spiegato con parole semplici e qualche analogia divertente:

1. Il Problema: Il "Muro di Mattoni" vs. L'Albero della Conoscenza

I sistemi di intelligenza artificiale tradizionali (RAG) quando leggono documenti fanno spesso un errore: tagliano tutto in pezzi uguali e slegati, come se prendessero un libro e lo riducessero in una pila di mattoni sparsi. Se chiedi "Chi ha scritto il capitolo 3?", il sistema potrebbe non capire che quel capitolo appartiene a quel libro, perché i mattoni sono stati mescolati. Inoltre, se chiedi "PUE" (un termine tecnico) ma il documento parla di "Efficienza nell'uso dell'energia", il sistema potrebbe non collegare i due concetti perché usano parole diverse.

La soluzione di KohakuRAG:
Invece di mattoni sparsi, KohakuRAG costruisce un albero genealogico dei documenti.

  • Immagina il documento come un albero: il tronco è il documento intero, i rami grandi sono i capitoli, i rami piccoli sono i paragrafi e le foglie sono le singole frasi.
  • Il sistema "legge" dalle foglie verso l'alto (dalla frase al paragrafo, al capitolo, al documento). In questo modo, quando trova una risposta, sa esattamente a quale ramo e a quale albero appartiene. Questo permette di citare la fonte con precisione chirurgica, come dire: "Ho preso questa informazione dalla foglia numero 5 del ramo 3 del capitolo 2".

2. La Ricerca: Non un Solo Detective, ma una Squadra

Spesso, quando fai una domanda, usi parole che il documento originale non usa. È come se tu chiedessi "Dov'è il mio gatto?" e il documento dicesse "Il felino domestico è sul divano". Un sistema semplice potrebbe non capire che sono la stessa cosa.

La soluzione di KohakuRAG:
Invece di inviare un solo detective a cercare la risposta, KohakuRAG usa un capo squadra (un'intelligenza artificiale) che crea una lista di molteplici modi per chiedere la stessa cosa.

  • Se chiedi "PUE", il capo squadra dice: "Ok, cercate anche 'Efficienza energetica', 'Rapporto di consumo', 'Metrica di potenza'".
  • Poi, raccoglie tutte le risposte trovate da queste diverse ricerche e le fa "votare". Se tre ricerche diverse trovano lo stesso paragrafo, quel paragrafo diventa la risposta più probabile. È come se avessi 10 amici che cercano un oggetto in una stanza: se tutti indicano lo stesso cassetto, è quasi certo che l'oggetto sia lì.

3. La Risposta: Il Consiglio degli Anziani (e il "Non lo so")

Le intelligenze artificiali a volte sono insicure o, peggio, "allucinate" (inventano cose). Se chiedi qualcosa di difficile, potrebbero dire "Non lo so" anche se la risposta è lì, oppure inventare un numero a caso.

La soluzione di KohakuRAG:
Il sistema non si fida di una sola risposta. Fa la stessa domanda a 7-15 "versioni" diverse dell'intelligenza artificiale (come chiedere a 15 esperti diversi).

  • Il voto: Se 14 esperti dicono "La risposta è 50" e uno dice "Non lo so", il sistema ignora l'insicuro e prende la risposta di 14.
  • Il filtro "Non lo so": Se tutti dicono "Non lo so", allora il sistema ammette onestamente di non sapere. Questo è cruciale: è meglio dire "non lo so" che inventare una bugia.
  • Il ripensamento: Se il sistema dice "Non lo so" perché non ha trovato abbastanza informazioni, prova a cercare di nuovo, ma questa volta guarda più documenti (come se dicesse: "Aspetta, forse ho guardato solo il primo cassetto, controlliamo anche gli altri 10").

Perché hanno vinto?

Hanno vinto perché hanno combinato queste tre cose in modo intelligente:

  1. Struttura: Hanno mantenuto l'ordine naturale dei documenti (albero) invece di romperli.
  2. Ricerca intelligente: Hanno usato molte domande diverse per trovare la risposta giusta anche se le parole erano diverse.
  3. Sicurezza: Hanno usato un "consiglio di esperti" per evitare errori e bugie, e hanno saputo dire "non lo so" quando era necessario.

In sintesi, KohakuRAG è come un bibliotecario super-organizzato che non solo trova il libro giusto, ma sa esattamente in quale pagina, capitolo e riga si trova l'informazione, e se non è sicuro, chiama i suoi colleghi per confermare prima di darti la risposta. Grazie a questo approccio, hanno superato tutti gli altri partecipanti, dimostrando che per le domande tecniche difficili, la precisione e la struttura contano più della semplice velocità.