Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

Each language version is independently generated for its own context, not a direct translation.

Vom Zählen der Reihen zum Verstehen: Wie ein digitaler Assistent Excel-Spreadsheets meistert

Stellen Sie sich vor, Sie müssten einen riesigen, chaotischen Lagerkeller durchsuchen, um eine einzige spezifische Schraube zu finden. Dieser Keller ist nicht nur riesig, sondern besteht aus Millionen von Regalen (Zellen), die über verschiedene Etagen (Tabellenblätter) verteilt sind. In manchen Regalen liegen nicht nur Schrauben, sondern auch Fotos, Diagramme und handschriftliche Notizen.

Frühere KI-Systeme waren wie ein Arbeiter, der einmal schnell durch den Keller läuft, versucht, sich alles auf einen Schlag zu merken, und dann versucht, die Schraube zu finden. Das Problem? Der Keller ist zu groß. Der Arbeiter vergisst Dinge, vermischt die Etagen oder muss den ganzen Keller in einen winzigen Rucksack (den „Kontext-Fenster" der KI) quetschen, wobei er wichtige Details verliert.

Die Forscher von PwC haben mit BRTR („Beyond Rows to Reasoning") eine völlig neue Lösung entwickelt. Hier ist die Erklärung, wie das funktioniert, ohne Fachchinesisch:

1. Der neue Ansatz: Der detektivische Assistent

Statt einmal durch den Keller zu rennen, hat BRTR einen intelligenten, geduldigen Detektiv an Bord.

Der alte Weg (Einmal-Pass): Der Detektiv schaut sich nur einen kleinen Ausschnitt an, macht sich Notizen und versucht sofort, die Antwort zu geben. Wenn er die Schraube nicht findet, gibt er auf oder erfindet eine.
Der BRTR-Weg (Iterativer Agent): Der Detektiv bekommt einen Auftrag. Er sagt: „Okay, ich suche erst in der Küche (Blatt 1). Ah, da steht ein Hinweis, dass die Schraube vielleicht im Keller (Blatt 5) liegt." Er geht dorthin, schaut nach, findet ein Foto einer Schraube und sagt: „Moment, das ist die falsche Art. Ich muss noch die Werkstatt (Blatt 3) prüfen."
- Er sucht, prüft, verfeinert seine Suche und sucht wieder, bis er sicher ist.
- Er nutzt spezielle Werkzeuge, um genau dort hinzuschauen, wo er sie braucht, statt den ganzen Keller auf einmal zu scannen.

2. Die Werkzeuge: Ein gut sortiertes Werkzeugset

Stellen Sie sich vor, der Detektiv hat eine magische Lupe und verschiedene Spezialwerkzeuge:

Suche nach Zeilen/Spalten: Er kann gezielt nach „Alle Zeilen mit dem Wort 'Umsatz'" suchen.
Suche nach Bildern: Er kann sich die eingebetteten Diagramme und Fotos genau ansehen (was frühere KIs oft nicht konnten).
Der Planer: Das ist der Kopf des Teams. Wenn die Aufgabe komplex ist („Erstelle eine Bilanz aus drei verschiedenen Dateien"), zerlegt der Planer den Auftrag in kleine, überschaubare Schritte. Er schickt verschiedene kleine Helfer los, die parallel arbeiten, und fasst am Ende alles zusammen.

3. Warum ist das so erfolgreich?

Die Forscher haben das System an echten, riesigen Unternehmensdaten getestet (Millionen von Zellen!). Die Ergebnisse waren beeindruckend:

Genauigkeit: Während alte Methoden bei komplexen Aufgaben oft nur bei 60–70 % lagen, traf BRTR mit den besten KI-Modellen fast immer ins Schwarze (bis zu 99 %).
Der „Kontext-Rucksack": Früher musste man den ganzen Keller in einen kleinen Rucksack packen, wobei Dinge zerquetscht wurden. BRTR nimmt nur das mit, was gerade wichtig ist, und tauscht es bei Bedarf aus. So bleibt der Rucksack leicht, aber der Inhalt ist immer frisch und relevant.
Auditierbarkeit: Das Beste: Man kann genau nachvollziehen, was der Detektiv getan hat. Jeder Schritt, jede Suche und jeder Fund wird protokolliert. Es ist wie ein schwarzer Kasten im Flugzeug: Man sieht genau, wie die Entscheidung zustande kam.

4. Die wichtigsten Erkenntnisse (in einfachen Worten)

Nicht alles auf einmal: Man muss nicht versuchen, das ganze Buch auf einmal zu lesen, um eine Frage zu beantworten. Man blättert gezielt um.
Der richtige Sucher: Nicht jede „Suchmaschine" (Embedding-Modell) ist gleich gut. Die Forscher haben herausgefunden, dass ein bestimmtes Modell (NVIDIA NeMo) am besten darin ist, sowohl Text als auch Bilder in Tabellen zu verstehen.
Planung ist alles: Ein KI-Modell allein reicht nicht. Es braucht einen „Planer", der den großen, chaotischen Auftrag in kleine, machbare Schritte zerlegt. Ohne diesen Planer scheitern die KIs bei komplexen Aufgaben.

Fazit

BRTR ist wie der Unterschied zwischen einem Schüler, der panisch versucht, ein ganzes Lexikon auswendig zu lernen, und einem erfahrenen Bibliothekar, der weiß, wie man gezielt nach Informationen sucht, sie überprüft und zu einer perfekten Antwort zusammenfügt.

Es macht KI endlich zu einem echten Partner für komplexe Büroarbeit, bei der es nicht nur um das Ablesen von Zahlen geht, sondern um das Verstehen von Zusammenhängen, das Vergleichen von verschiedenen Dateien und das Erstellen neuer Dokumente – alles mit einer Zuverlässigkeit, die menschliche Experten beeindruckt.

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

1. Der neue Ansatz: Der detektivische Assistent

2. Die Werkzeuge: Ein gut sortiertes Werkzeugset

3. Warum ist das so erfolgreich?

4. Die wichtigsten Erkenntnisse (in einfachen Worten)

Fazit

1. Problemstellung

2. Methodik: Das BRTR-Framework

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Beyond Rows to Reasoning: Agentic Retrieval for Multimodal Spreadsheet Understanding and Editing

1. Der neue Ansatz: Der detektivische Assistent

2. Die Werkzeuge: Ein gut sortiertes Werkzeugset

3. Warum ist das so erfolgreich?

4. Die wichtigsten Erkenntnisse (in einfachen Worten)

Fazit

1. Problemstellung

2. Methodik: Das BRTR-Framework

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models