KohakuRAG: A simple RAG framework with hierarchical document indexing

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover preparare una relazione tecnica super precisa su un argomento complesso, come il consumo energetico dei data center. Hai a disposizione 32 documenti enormi (come 32 enciclopedie piene di grafici, tabelle e numeri). Il tuo compito è rispondere a circa 300 domande tecniche, citando esattamente da quale pagina hai preso l'informazione, e se non trovi la risposta, devi ammettere onestamente "non lo so" invece di inventare qualcosa.

Se provassi a leggere tutto questo da solo, saresti sopraffatto. È qui che entra in gioco KohakuRAG, il sistema creato dal laboratorio Kohaku (dall'Università Nazionale Tsing Hua e altri) che ha vinto la competizione "WattBot 2025" arrivando primo sia nella classifica pubblica che in quella privata.

Ecco come funziona, spiegato con parole semplici e qualche analogia divertente:

1. Il Problema: Il "Muro di Mattoni" vs. L'Albero della Conoscenza

I sistemi di intelligenza artificiale tradizionali (RAG) quando leggono documenti fanno spesso un errore: tagliano tutto in pezzi uguali e slegati, come se prendessero un libro e lo riducessero in una pila di mattoni sparsi. Se chiedi "Chi ha scritto il capitolo 3?", il sistema potrebbe non capire che quel capitolo appartiene a quel libro, perché i mattoni sono stati mescolati. Inoltre, se chiedi "PUE" (un termine tecnico) ma il documento parla di "Efficienza nell'uso dell'energia", il sistema potrebbe non collegare i due concetti perché usano parole diverse.

La soluzione di KohakuRAG:
Invece di mattoni sparsi, KohakuRAG costruisce un albero genealogico dei documenti.

Immagina il documento come un albero: il tronco è il documento intero, i rami grandi sono i capitoli, i rami piccoli sono i paragrafi e le foglie sono le singole frasi.
Il sistema "legge" dalle foglie verso l'alto (dalla frase al paragrafo, al capitolo, al documento). In questo modo, quando trova una risposta, sa esattamente a quale ramo e a quale albero appartiene. Questo permette di citare la fonte con precisione chirurgica, come dire: "Ho preso questa informazione dalla foglia numero 5 del ramo 3 del capitolo 2".

2. La Ricerca: Non un Solo Detective, ma una Squadra

Spesso, quando fai una domanda, usi parole che il documento originale non usa. È come se tu chiedessi "Dov'è il mio gatto?" e il documento dicesse "Il felino domestico è sul divano". Un sistema semplice potrebbe non capire che sono la stessa cosa.

La soluzione di KohakuRAG:
Invece di inviare un solo detective a cercare la risposta, KohakuRAG usa un capo squadra (un'intelligenza artificiale) che crea una lista di molteplici modi per chiedere la stessa cosa.

Se chiedi "PUE", il capo squadra dice: "Ok, cercate anche 'Efficienza energetica', 'Rapporto di consumo', 'Metrica di potenza'".
Poi, raccoglie tutte le risposte trovate da queste diverse ricerche e le fa "votare". Se tre ricerche diverse trovano lo stesso paragrafo, quel paragrafo diventa la risposta più probabile. È come se avessi 10 amici che cercano un oggetto in una stanza: se tutti indicano lo stesso cassetto, è quasi certo che l'oggetto sia lì.

3. La Risposta: Il Consiglio degli Anziani (e il "Non lo so")

Le intelligenze artificiali a volte sono insicure o, peggio, "allucinate" (inventano cose). Se chiedi qualcosa di difficile, potrebbero dire "Non lo so" anche se la risposta è lì, oppure inventare un numero a caso.

La soluzione di KohakuRAG:
Il sistema non si fida di una sola risposta. Fa la stessa domanda a 7-15 "versioni" diverse dell'intelligenza artificiale (come chiedere a 15 esperti diversi).

Il voto: Se 14 esperti dicono "La risposta è 50" e uno dice "Non lo so", il sistema ignora l'insicuro e prende la risposta di 14.
Il filtro "Non lo so": Se tutti dicono "Non lo so", allora il sistema ammette onestamente di non sapere. Questo è cruciale: è meglio dire "non lo so" che inventare una bugia.
Il ripensamento: Se il sistema dice "Non lo so" perché non ha trovato abbastanza informazioni, prova a cercare di nuovo, ma questa volta guarda più documenti (come se dicesse: "Aspetta, forse ho guardato solo il primo cassetto, controlliamo anche gli altri 10").

Perché hanno vinto?

Hanno vinto perché hanno combinato queste tre cose in modo intelligente:

Struttura: Hanno mantenuto l'ordine naturale dei documenti (albero) invece di romperli.
Ricerca intelligente: Hanno usato molte domande diverse per trovare la risposta giusta anche se le parole erano diverse.
Sicurezza: Hanno usato un "consiglio di esperti" per evitare errori e bugie, e hanno saputo dire "non lo so" quando era necessario.

In sintesi, KohakuRAG è come un bibliotecario super-organizzato che non solo trova il libro giusto, ma sa esattamente in quale pagina, capitolo e riga si trova l'informazione, e se non è sicuro, chiama i suoi colleghi per confermare prima di darti la risposta. Grazie a questo approccio, hanno superato tutti gli altri partecipanti, dimostrando che per le domande tecniche difficili, la precisione e la struttura contano più della semplice velocità.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del documento "KohakuRAG: A simple RAG framework with hierarchical document indexing" in italiano.

Panoramica

Il paper presenta KohakuRAG, un framework di Retrieval-Augmented Generation (RAG) progettato per affrontare le sfide critiche dei sistemi RAG standard quando sono richiesti citazioni ad alta precisione e risposte numeriche esatte. Il framework è stato sviluppato e validato vincendo il primo posto nella WattBot 2025 Challenge, una competizione che richiede di rispondere a domande tecniche su documenti riguardanti il consumo energetico dell'IA, con una tolleranza numerica stretta (±0.1%) e l'obbligo di citare le fonti esatte.

1. Il Problema

I sistemi RAG convenzionali affrontano tre limitazioni fondamentali in scenari ad alta precisione:

Perdita di struttura documentale: Le strategie di "flat chunking" (suddivisione in blocchi di lunghezza fissa) distruggono i confini semantici del documento (sezioni, paragrafi), rendendo difficile il tracciamento preciso delle citazioni.
Mancanza di copertura nel recupero (Retrieval): Le formulazioni di query singole spesso falliscono a causa del disallineamento lessicale (es. l'utente chiede "PUE" mentre il documento usa "Power Usage Effectiveness"), portando a mancate recuperazioni di passaggi rilevanti.
Instabilità delle risposte: L'inferenza singola di un LLM produce risposte stocastiche che variano nel contenuto e nella selezione delle citazioni tra diverse esecuzioni, portando spesso a un'astensione ingiustificata (il modello dice "non so" anche quando l'evidenza è presente ma difficile da localizzare).

2. Metodologia: KohakuRAG

KohakuRAG risolve questi problemi attraverso tre meccanismi principali integrati in una pipeline end-to-end:

A. Indicizzazione Gerarchica dei Documenti

Invece di frammenti piatti, il sistema costruisce una rappresentazione ad albero a quattro livelli:

Struttura: Documento $\rightarrow$ Sezione $\rightarrow$ Paragrafo $\rightarrow$ Frase.
Embedding Bottom-Up: Gli embedding vengono calcolati per le frasi (foglie) e aggregati verso l'alto (ai paragrafi e sezioni) tramite una media ponderata in base alla lunghezza (token count).
Vantaggio: Questo preserva i confini naturali del documento, permettendo citazioni precise a qualsiasi livello di granularità e catturando la semantica compositiva.

B. Recupero Multi-Query con Reranking Incrociato

Per colmare il divario lessicale tra domanda e documento:

Query Planner: Un LLM genera $n$ query semanticamente correlate che riformulano la domanda, espandono abbreviazioni e decompongono domande complesse.
Cross-Query Reranking: I risultati di tutte le query vengono aggregati. Un nodo (passaggio) che appare in più query riceve un punteggio più alto (segnale di consenso), permettendo di far emergere i passaggi più rilevanti anche se non perfettamente allineati lessicalmente alla query originale.

C. Inferenza di Ensemble con Astensione Consapevole

Per stabilizzare le risposte e ridurre le allucinazioni:

Multi-Run: Vengono eseguite $m$ inferenze indipendenti con temperature diverse.
Voto di Maggioranza: Le risposte vengono aggregate tramite voto di maggioranza.
Filtraggio Astensione: Un meccanismo critico filtra le risposte "vuote" (astensione) prima del voto. Se l'evidenza esiste ma è difficile da trovare, questo impedisce che le esecuzioni "conservative" (che astengono) dominino il risultato finale.
Meccanismo di Riprova (Retry): Se il modello astiene, il sistema aumenta automaticamente il numero di contesti recuperati ( $k$ ) e riprova, riducendo i falsi negativi.

3. Contributi Chiave

Schema di Indicizzazione Gerarchica: Una rappresentazione ad albero con aggregazione bottom-up degli embedding che abilita il tracciamento preciso delle provenienze (provenance).
Pianificatore di Query Potenziato da LLM: Un approccio di recupero multi-query con reranking basato sul consenso che migliora significativamente la copertura rispetto alle query singole.
Meccanismo di Ensemble con Gestione dell'Astensione: Una strategia di votazione che filtra le astensioni non necessarie, affrontando il modo di errore dominante (26.8% dei fallimenti).
Risultati Sperimentali: Dimostrazione che il recupero denso gerarchico da solo è competitivo (BM25 aggiunge solo +3.1 punti percentuali), e che l'ordinamento del prompt e i meccanismi di retry hanno un impatto maggiore delle strategie ibride sparse-dense.

4. Risultati Sperimentali

Il framework è stato valutato sulla WattBot 2025 Challenge (32 documenti, ~500k token, ~300 domande tecniche).

Punteggio Finale: KohakuRAG ha ottenuto 0.861, arrivando primo sia nella classifica pubblica che in quella privata.
Unicità: È stata l'unica squadra a mantenere la prima posizione in entrambe le partizioni di valutazione, dimostrando una robustezza superiore rispetto ad altri metodi che hanno subito degradazioni fino a -0.046 punti.
Analisi di Ablazione:
- Ordinamento del Prompt: Mettere il contesto prima della domanda (C $\rightarrow$ Q) ha portato un miglioramento relativo del +80%.
- Meccanismo di Retry: Ha fornito un miglioramento relativo del +69% a bassi livelli di recupero ( $k=4$ ).
- Voto di Ensemble: Il filtraggio delle risposte vuote ha aggiunto +1.2 punti percentuali a $n=9$ .
- Recupero: L'aggiunta di BM25 al recupero denso ha aggiunto solo +3.1pp, suggerendo che una struttura di recupero ricca rende il matching lessicale meno critico.
Analisi degli Errori: I tre principali errori sono stati: astensione non necessaria (26.8%), mismatch delle citazioni (23.6%) e selezione errata del valore (22.2%).

5. Significato e Implicazioni

Il lavoro di KohakuRAG dimostra che per compiti di QA basati su documenti con requisiti di citazione rigorosi:

La struttura gerarchica è superiore alla frammentazione piatta per il tracciamento delle fonti.
La robustezza (garantita dagli ensemble e dal filtraggio dell'astensione) è più importante della massima precisione su un singolo set di dati pubblico, prevenendo l'overfitting su distribuzioni di test specifiche.
Le tecniche di post-processing intelligente (retry, votazione, gestione dell'astensione) possono avere un impatto maggiore rispetto alla semplice ottimizzazione dei modelli di embedding o all'uso di retrieval ibridi complessi.

Il codice è stato rilasciato come open-source, fornendo un riferimento solido per la costruzione di sistemi RAG affidabili in contesti tecnici e scientifici.