Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superintelligente bibliothecaris hebt die alles uit zijn hoofd weet. Deze bibliothecaris (een Large Language Model of LLM) kan prachtige verhalen schrijven, maar soms verzonnen hij details die niet waar zijn. Dit noemen we "hallucinaties".

Tot nu toe was de enige manier om te controleren of deze bibliothecaris de waarheid sprak, om hem te laten stoppen en een zoekopdracht te laten doen in een enorme externe database (zoals Google of Wikipedia). Dit is als een detective die voor elk feit dat hij hoort, eerst naar de bibliotheek moet rennen om een boek te zoeken. Dat is traag, kost veel energie en als het boek niet in de bibliotheek staat, kan de detective niets zeggen.

Het probleem:
Deze "zoek-en-vergelijk"-methode heeft een groot nadeel: hij gebruikt de eigen kennis van de bibliothecaris nauwelijks. Alsof je een expert vraagt om een vraag te beantwoorden, maar hem verbiedt om zijn eigen brein te gebruiken en hem dwingt om alleen naar notities te kijken die iemand anders hem heeft gegeven.

De oplossing van dit onderzoek:
De auteurs van dit paper stellen een nieuwe manier voor: Fact-checking zonder zoeken.

Ze vragen zich af: "Kan de bibliothecaris zelf, zonder naar boeken te kijken, vertellen of wat hij zegt waar is?" Ze hebben een nieuwe methode bedacht, genaamd INTRA, die precies dat doet.

Hoe werkt het? (De Creatieve Analogie)

Stel je de interne werking van de LLM voor als een groot, donker kantoorgebouw met vele verdiepingen (laag voor laag).

De oude methode (Logits/Onzekerheid):
De oude methoden keken alleen naar de uitkomst aan de voordeur. Ze vroegen: "Hoe zeker lijkt de bibliothecaris?"
- Het probleem: Een leugenaar kan heel zelfverzekerd klinken. Dus als de bibliothecaris zegt "De maan is van kaas" met een zelfverzekerde stem, denken de oude methoden: "Oh, hij is zeker, dus het moet waar zijn." Dat werkt niet goed.
De nieuwe methode (INTRA):
INTRA doet iets heel anders. Het kijkt niet naar de voordeur, maar stapt het gebouw binnen. Het loopt door de gangen, kijkt naar de lichten in de kamers en luistert naar de trillingen in de muren terwijl de bibliothecaris denkt.
- De Analogie: Stel je voor dat je iemand vraagt of "Parijs de hoofdstad van Frankrijk is".
  - Als het waar is, "lichten" bepaalde kamers in het gebouw op op een specifieke, harmonieuze manier. De trillingen in de muren zijn rustig en consistent.
  - Als het een leugen is (bijvoorbeeld "Parijs is de hoofdstad van Spanje"), dan gaan de lichten flitsen, de muren trillen onrustig en voelen de kamers "slecht" aan, zelfs als de bibliothecaris het hardop zegt alsof het waar is.
- INTRA meet deze interne trillingen en lichten. Het combineert signalen uit verschillende verdiepingen van het gebouw om een oordeel te vellen.

Wat hebben ze ontdekt?

De onderzoekers hebben 18 verschillende manieren getest om deze "interne trillingen" te meten, en ze hebben een nieuwe, slimme methode (INTRA) bedacht die het beste werkt.

Het werkt overal: Of de vraag nu gaat over populaire dingen (zoals "Wie is de president?") of over rare, obscure feiten (zoals "Wie was de 14e burgemeester van een klein dorp in 1890?"), INTRA werkt goed.
Het werkt in vele talen: Of de bibliothecaris nu Nederlands, Spaans of Georgisch spreekt, INTRA kan de "trillingen" in het brein nog steeds lezen.
Het is supersnel: Omdat het niet hoeft te rennen naar de bibliotheek (geen internet nodig), gaat het 20 keer sneller dan de oude methoden.

Waarom is dit belangrijk?

Dit onderzoek opent de deur naar een nieuwe wereld voor AI:

Snelheid: Je kunt nu direct controleren of een AI iets verzint, zonder te wachten op zoekresultaten.
Betrouwbaarheid: Het maakt AI-systemen veiliger, vooral in belangrijke gebieden zoals de geneeskunde of het recht, waar feitelijke fouten gevaarlijk zijn.
Slimmer leren: Omdat we nu weten hoe een AI "voelt" als het liegt, kunnen we deze signalen gebruiken om de AI tijdens het trainen te belonen voor eerlijkheid en te straffen voor liegen.

Kortom:
In plaats van dat we de AI dwingen om altijd een zoekmachine te raadplegen, hebben we geleerd om naar de "innerlijke stem" van de AI te luisteren. De nieuwe methode, INTRA, is als een ervaren detective die de lichaamstaal van de AI kan lezen om te zien of hij de waarheid spreekt, zonder dat hij ooit een boek hoeft op te slaan.

Each language version is independently generated for its own context, not a direct translation.

Titel: Leveraging LLM Parametric Knowledge for Fact Checking Without Retrieval

Auteurs: Artem Vazhentsev et al.
Doel: Het introduceren van een nieuwe setting voor feitencontrole die geen externe zoekopdrachten (retrieval) vereist, maar uitsluitend vertrouwen op de interne parametrische kennis van Large Language Models (LLMs).

1. Het Probleem

De betrouwbaarheid van AI-systemen is een kritieke uitdaging, vooral vanwege "hallucinaties" (feitelijke onjuistheden) die door LLMs worden gegenereerd. Bestaande methoden voor feitencontrole vertrouwen grotendeels op Retrieval-Augmented Generation (RAG) pipelines (zoals FActScore en SAFE). Deze werken als volgt:

Een tekst wordt opgesplitst in atomische claims.
Voor elke claim wordt externe kennis opgehaald (bijv. via zoekmachines of databases).
De claim wordt vergeleken met de opgehaalde bewijslast.

Beperkingen van RAG-gebaseerde methoden:

Retrieval-fouten: De kwaliteit van de controle is afhankelijk van de kwaliteit van de zoekresultaten. Irrelevante of ruisachtige data kan leiden tot foutieve conclusies.
Latentie en schaalbaarheid: Elke claim vereist een zoekopdracht, wat vertraging introduceert en de schaalbaarheid beperkt.
Onderschatting van interne kennis: Deze methoden negeren de enorme hoeveelheid feitelijke kennis die al in de parameters van het LLM is opgeslagen tijdens het trainingsproces.
Afhankelijkheid: Ze kunnen niet werken zonder toegang tot externe databases of internet.

Het paper stelt dat er een behoefte is aan een methode die de intrinsieke feitelijke capaciteiten van het model direct benut zonder externe hulp.

2. Methodologie

De Taak: Fact-Checking Without Retrieval

De auteurs definiëren de taak als het bepalen van de waarheidswaarde van een atomische claim (een minimale feitelijke eenheid) uitsluitend op basis van de interne kennis van het LLM.

Input: Alleen de claim-tekst (zonder context, prompt of volledige generatie).
Output: Een score $s \in [0, 1]$ die de waarschijnlijkheid aangeeft dat de claim feitelijk correct is.
Beperking: Geen toegang tot webzoekresultaten, vector-databases of externe documenten.

Benchmarks en Evaluatie Framework

Om de robuustheid te testen, hebben de auteurs een uitgebreid evaluatieframework ontwikkeld met 9 datasets die verschillende generalisatiedimensies testen:

Long-tail kennis: Claims over zeldzame entiteiten (AC-PopQA, AC-WH).
Bronvariatie: Menselijk gegenereerde claims vs. door LLM gegenereerde claims.
Meertaligheid: Claims in 25 talen (X-Fact).
Langere generaties: Claims geëxtraheerd uit lange teksten (UHead, AC-WH).
Cross-model: Claims gegenereerd door verschillende modellen (GPT-3, Mistral, Llama).

Er werden 18 bestaande methoden geëvalueerd, waaronder:

Onbewaakte methoden: Gebaseerd op onzekerheidssignalen (Perplexity, Entropy, Attention Scores).
Bewaakte methoden: Klassificatoren getraind op interne representaties (SAPLMA, CCS, MIND, UHead, etc.).

De Oplossing: INTRA (Intrinsic Truthfulness Assessment)

De auteurs stellen INTRA voor, een methode die de interacties tussen interne modelrepresentaties benut. De architectuur bestaat uit drie stappen:

Token- en Layer-selectie:
In plaats van alleen de eerste of laatste token te gebruiken, aggregeren ze de hidden states van alle tokens in de claim. Ze gebruiken een leerbaar parametervector $\theta$ om gewichten toe te kennen aan elke token (via een softmax), wat resulteert in een sequentie-embeddings voor elke laag $l$ :
$h_l(y) = \sum_{i=1}^{N} \alpha_{l,i} h_l(y_i)$
Layer-wise Waarheidsscore:
Op elke laag wordt een lineaire classifier toegepast om een waarschijnlijkheid $p_l$ te berekenen:
$p_l(\text{Verified} | y) = \sigma(W^\top h_l(y))$
Geaggregeerde Score:
Omdat de optimale laag varieert per taak, worden de scores van meerdere lagen (specifiek de middelste lagen, bijv. 11-22 voor Llama 3.1-8B) geïntegreerd. Eerst worden de probabilities genormaliseerd (quantile normalization) om schaalverschillen tussen lagen weg te nemen, waarna een L2-regressiemodel de uiteindelijke score berekent:
$\text{INTRA}(y) = \sum_{l \in L} \beta_l \cdot q(p_l(\text{Verified} | y)) + b$

3. Belangrijkste Resultaten

De experimenten omvatten drie modellen (Llama 3.1-8B, Ministral 8B, Phi-4-mini) en negen datasets.

Prestatie: INTRA bereikt de State-of-the-Art (SoTA) prestaties in de retrieval-free setting.
- Gemiddelde ROC-AUC over alle modellen: 73.3% (INTRA) vs. 72.0% voor de tweede beste methode (Sheeps).
- INTRA overtreft de best presterende onbewaakte methode (Verbalized) met een aanzienlijke marge in generalisatie, terwijl deze veel sneller is.
Generalisatie:
- Bestaande methoden presteren vaak goed op hun trainingsdomein (bijv. PopQA) maar falen bij out-of-domain data (zoals lange generaties of zeldzame entiteiten).
- INTRA toont consistente robuustheid over alle datasets heen, inclusief langstaart-kennis en meertalige scenario's.
Vergelijking met RAG:
- INTRA presteert vergelijkbaar met de retrieval-gebaseerde methode Verb+RAG in ROC-AUC, maar verslaat deze significant in PR-AUC (gemiddeld +3%). Dit is cruciaal omdat PR-AUC de kwaliteit van het detecteren van hallucinaties meet zonder te veel correcte claims ten onrechte te markeren.
- Snelheid: INTRA is ongeveer 20x sneller dan Verb+RAG omdat het geen externe zoekopdrachten vereist.
Analyse van Lagen:
- De studie bevestigt dat middelste lagen van het LLM de meest informatieve signalen bevatten voor feitencontrole. Het combineren van signalen uit meerdere lagen is essentieel voor optimale prestaties.
- Onbewaakte methoden die puur op onzekerheid (zoals Perplexity) vertrouwen, presteren slecht, vooral bij langstaart-kennis.

4. Bijdragen

Nieuwe Setting: Introductie van "Fact-checking without retrieval" als een formeel onderzoeksgebied, waarbij de nadruk ligt op het benutten van parametrische kennis.
Uitgebreid Framework: Een evaluatieprotocol met 9 diverse datasets die generalisatie testen over kennispopulaariteit, bron, taal en generatielengte.
INTRA Methode: Een effectieve, schaalbare en generaliserende methode die interne representaties combineert om hallucinaties te detecteren zonder externe hulp.
Open Source: Publicatie van de data-suite en code om toekomstig onderzoek te faciliteren.

5. Betekenis en Toekomstperspectief

Dit werk heeft belangrijke implicaties voor de ontwikkeling van betrouwbare AI-systemen:

Schaalbaarheid: Door externe databases te elimineren, kunnen feitencontrolesystemen veel sneller en goedkoper worden ingezet.
Onafhankelijkheid: Het maakt feitencontrole mogelijk in omgevingen zonder internet of in real-time toepassingen waar latency kritiek is.
Training en Reward Modeling: De methode biedt een fundament voor het ontwikkelen van reward models die de waarheidswaarde van generaties kunnen beoordelen tijdens het Reinforcement Learning from Human Feedback (RLHF) proces.
Intrinsieke Capaciteiten: Het bewijst dat LLMs meer feitelijke kennis "weten" dan ze extern tonen, en dat deze kennis direct toegankelijk is voor detectie van hallucinaties.

Samenvattend stelt het paper dat het verlaten van de afhankelijkheid van externe retrieval en het focussen op de interne "intuïtie" van het model een veelbelovende richting is voor de volgende generatie feitencontrole-systemen.

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Hoe werkt het? (De Creatieve Analogie)

Wat hebben ze ontdekt?

Waarom is dit belangrijk?

Titel: Leveraging LLM Parametric Knowledge for Fact Checking Without Retrieval

1. Het Probleem

2. Methodologie

De Taak: Fact-Checking Without Retrieval

Benchmarks en Evaluatie Framework

De Oplossing: INTRA (Intrinsic Truthfulness Assessment)

3. Belangrijkste Resultaten

4. Bijdragen

5. Betekenis en Toekomstperspectief

Meer zoals dit

Unsupervised Point Cloud Pre-Training via Contrasting and Clustering

Conceptual Views of Neural Networks: A Framework for Neuro-Symbolic Analysis

Combining Tree-Search, Generative Models, and Nash Bargaining Concepts in Game-Theoretic Reinforcement Learning

3D-LFM: Lifting Foundation Model

Sparse Training for Federated Learning with Regularized Error Correction