Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een groot, oud kantoor een enorme archiefkast heeft. Deze kast is niet gemaakt van gewone mappen, maar van duizenden losse vellen papier, ingekleefde foto's, handgeschreven notities en ingewikkelde tabellen. Iedereen die hier werkt, moet soms een specifiek antwoord vinden, bijvoorbeeld: "Wat was de totale winst in 2023, en hoe zag de grafiek eruit die bij die cijfers hoorde?"

Vroeger (en bij de huidige technologie) was het zoeken in deze kast als volgt:
Je gaf een vraag aan een slimme, maar zeer drukke assistent (een AI). De assistent nam één keer een grote greep uit de kast, probeerde alles in één keer te lezen, en gaf dan direct een antwoord.

Het probleem: Als de vraag complex was, miste de assistent belangrijke details. Als de kast te vol was, werd de assistent overweldigd door de hoeveelheid papier en vergat hij de helft. Hij kon niet terugkeren om "missende stukjes" te zoeken.

BRTR (Beyond Rows to Reasoning) is een nieuwe, revolutionaire manier om deze assistent te trainen. Het is alsof we de assistent niet alleen slimmer maken, maar hem ook een strategische planner en een eindeloze geduld geven.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Detective" in plaats van de "Snelle Lezer"

Stel je voor dat je een detective bent die een moordzaak oplost.

De oude manier: De detective leest het hele dossier in één keer door en schrijft direct een verslag. Als hij een bewijsstuk mist, is het te laat.
De BRTR-methode: De detective (de AI) begint met een eerste zoektocht. Hij vindt een paar aanwijzingen. Dan zegt hij: "Hmm, dit lijkt op de waarheid, maar ik heb ook de foto's nodig die bij deze notitie horen." Hij gaat terug naar de kast, zoekt specifiek naar die foto's, kijkt ernaar, en zegt: "Oké, nu heb ik het plaatje compleet."

Dit noemen ze een iteratieve lus. De AI mag terugkomen, vragen verfijnen en nieuwe stukjes zoeken totdat hij zeker is van het antwoord. Het is geen "één keer kijken en hopen", maar "zoeken, controleren, en opnieuw zoeken".

2. De "Chef-kok" en zijn "Gastkokken" (De Planner)

Bij complexe taken (zoals het maken van een financieel verslag) is het te veel voor één persoon om alles tegelijk te doen.

BRTR introduceert een Planner (een Chef-kok).
De Chef krijgt de opdracht: "Maak een verslag."
In plaats van zelf te koken, deelt de Chef het werk op in kleine taken: "Jij (Gastkok 1) zoekt de cijfers op. Jij (Gastkok 2) maakt de grafiek. Jij (Gastkok 3) controleert of de optelling klopt."
Elke "Gastkok" doet zijn eigen taak en geeft het resultaat terug aan de Chef. De Chef zorgt dat alles op het juiste moment samenkomen. Dit voorkomt dat de AI in de war raakt of fouten maakt door te veel tegelijk te proberen.

3. De "Grote Oorlogs" (De Context)

Een van de grootste problemen met AI is dat ze een beperkt "geheugen" hebben (een contextvenster). Als je een heel boek in één keer in hun hoofd stopt, vergeten ze het begin.

BRTR gebruikt een slimme truc: Context-beheer.
Stel je voor dat de detective een notitieblok heeft. Als hij een nieuwe foto vindt, plakt hij die op het blad. Maar als het blad vol raakt, plakt hij de oude foto's eruit en bewaart alleen de beschrijving van die foto's in zijn hoofd.
Zo blijft zijn notitieblok klein en overzichtelijk, maar onthoudt hij wel alles wat belangrijk is. Dit zorgt ervoor dat de AI niet "dwaalt" door te veel informatie.

4. De "Super-Scanner" (De Zoekmachine)

Om deze detective te laten werken, hebben ze een speciale scanner nodig die niet alleen tekst, maar ook tabellen, grafieken en foto's begrijpt.

Ze hebben vijf verschillende scanners getest. De winnaar was de NVIDIA NeMo Retriever.
Deze scanner is als een super-scherpe lens die precies ziet waar een getal in een tabel staat én welke foto erbij hoort, zelfs als ze door elkaar liggen.

Waarom is dit zo belangrijk?

In de echte wereld werken bedrijven met miljoenen cellen in Excel-bestanden, PDF's en foto's door elkaar.

Vroeger: AI gaf vaak foutieve antwoorden omdat het niet kon "nadenken" over de hele situatie.
Nu met BRTR: De AI haalt 99% correcte antwoorden (in tests), zelfs bij de moeilijkste taken. Het is alsof je een senior accountant en een grafisch ontwerper in één persoon hebt, die samenwerken om een foutloos verslag te maken.

Kort samengevat:
BRTR is niet zomaar een snellere AI. Het is een AI die leert niet alles in één keer te willen weten, maar die leert om stap voor stap te zoeken, te twijfelen, te controleren en pas dan een antwoord te geven. Het is de overstap van "raar gissen" naar "verantwoord redeneren".

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

1. De "Detective" in plaats van de "Snelle Lezer"

2. De "Chef-kok" en zijn "Gastkokken" (De Planner)

3. De "Grote Oorlogs" (De Context)

4. De "Super-Scanner" (De Zoekmachine)

Waarom is dit zo belangrijk?

Probleemstelling

Methodologie: Het BRTR Framework

Belangrijkste Bijdragen

Resultaten

Significantie

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

1. De "Detective" in plaats van de "Snelle Lezer"

2. De "Chef-kok" en zijn "Gastkokken" (De Planner)

3. De "Grote Oorlogs" (De Context)

4. De "Super-Scanner" (De Zoekmachine)

Waarom is dit zo belangrijk?

Probleemstelling

Methodologie: Het BRTR Framework

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models