SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen sehr klugen, aber manchmal etwas verwirrten Assistenten, der aus dem Nichts ganze Excel-Tabellen zaubern kann. Du sagst ihm: „Mach mir eine Tabelle für mein kleines Café, wo ich meine Ausgaben und Einnahmen tracken kann." Und er liefert dir nicht nur Zahlen, sondern auch bunte Farben, Formeln und Diagramme.

Das ist das, was Large Language Models (LLMs) heute tun können. Aber wie gut sind sie wirklich? Sind die Tabellen, die sie erstellen, brauchbar oder nur hübsch anzusehen?

Genau das untersucht die Forschergruppe in ihrem Papier mit dem Namen SPREADSHEETARENA. Hier ist die Erklärung, wie ein einfaches Spiel, das jeder verstehen kann:

1. Das große Blind-Test-Spiel (Die Arena)

Stell dir eine riesige Arena vor, wie bei einem E-Sport-Turnier. Aber statt Schach oder Fußball spielen hier KI-Modelle gegeneinander.

Der Auftrag: Ein Nutzer gibt eine Aufgabe ein (z. B. „Erstelle eine Finanzplanung für ein Hotel").
Der Kampf: Zwei verschiedene KI-Modelle (z. B. Claude vs. GPT) erstellen jeweils eine eigene Excel-Tabelle für denselben Auftrag.
Das Urteil: Ein echter Mensch sieht sich beide Tabellen an, weiß aber nicht, welche KI sie erstellt hat (das nennt man „blind"). Er muss entscheiden: „Welche Tabelle ist besser?" oder „Sind beide schlecht?".

Das Team hat über 4.300 solcher Kämpfe gesammelt. Am Ende haben sie eine Rangliste erstellt, ähnlich wie bei Schachmeistern (Elo-Rating), um zu sehen, welche KI am besten Excel-Tabellen baut.

2. Das Problem: „Hübsch" ist nicht immer „Richtig"

Hier wird es spannend. Die Forscher haben bemerkt, dass Menschen oft von der Oberfläche getäuscht werden.

Analogie: Stell dir zwei Pizzen vor. Pizza A hat eine perfekte, goldbraune Kruste, viel Käse und sieht toll aus. Pizza B sieht etwas unordentlich aus, hat aber den perfekten Belag und schmeckt fantastisch.
In der Arena haben die Menschen oft Pizza A gewählt, weil sie schöner aussah. Aber in der echten Welt (z. B. bei Finanzberichten) zählt, ob die Formeln stimmen und ob man die Zahlen später leicht ändern kann.

Die Studie zeigt: Die KI-Modelle, die in der Rangliste ganz oben stehen, machen oft Tabellen, die optisch toll sind (viele Farben, dicke Schrift), aber manchmal falsche Berechnungen enthalten oder wichtige Regeln der Finanzwelt ignorieren.

3. Der „Magische Filter" (Feature-Adjustment)

Die Forscher haben einen cleveren Trick angewendet. Sie haben sich gefragt: „Was genau macht eine Tabelle eigentlich gut?"
Sie haben einen „Magischen Filter" über die Ergebnisse gelegt, der bestimmte Dinge herausrechnet:

Wie viele Farben wurden benutzt?
Wie viele Formeln gibt es?
Wie viele Zellen sind gefüllt?

Das Ergebnis war überraschend:
Wenn man den „Schönheitsfaktor" herausrechnet, ändert sich die Rangliste drastisch!

Ein Modell, das vorher ganz oben stand, rutscht nach unten, weil es sich nur auf das „Hübsche" verlassen hat.
Ein anderes Modell, das vorher eher unten war, steigt auf, weil es eigentlich sehr solide und korrekte Tabellen baut, auch wenn sie weniger „glänzen".

Es ist, als würde man beim Schönheitswettbewerb plötzlich auch auf die Intelligenz der Kandidaten achten. Plötzlich gewinnt nicht mehr der mit dem schönsten Anzug, sondern der mit dem klügsten Kopf.

4. Der Unterschied zwischen „Schüler" und „Profi"

Die Forscher haben auch Experten aus der Finanzwelt (Banker, Controller) hinzugezogen, um die Tabellen zu bewerten.

Das Ergebnis: Die KI-Modelle sind wie talentierte Schüler, die sehr gut im Zeichnen und Formatieren sind. Aber sie sind noch keine erfahrenen Profis.
Wenn ein Banker eine Tabelle sieht, merkt er sofort: „Aha, hier wurde eine Zahl direkt in die Formel geschrieben, statt sie in eine Zelle zu legen." Das ist in der Finanzwelt ein riesiger Fehler (wie wenn man in einem Rezept „2 Eier" direkt in den Teig schreibt, statt sie in eine Schüssel zu legen).
Die KI macht diese Fehler oft. Die Menschen in der Arena (die „Schüler") merken das oft nicht, weil sie sich von den bunten Farben blenden lassen.

5. Was bedeutet das für uns?

Die Botschaft des Papiers ist einfach:
Wir dürfen uns nicht nur darauf verlassen, dass eine KI eine „schöne" Antwort gibt. Bei komplexen Aufgaben wie Excel-Tabellen ist es wichtig, genau hinzusehen.

Für die KI-Hersteller: Eure Modelle müssen lernen, nicht nur hübsch zu sein, sondern auch fachlich korrekt und nach den Regeln der jeweiligen Branche (z. B. Finanzwesen) zu arbeiten.
Für uns Nutzer: Wenn eine KI eine Tabelle erstellt, prüfe sie nicht nur auf den ersten Blick. Schau dir die Formeln an. Ist sie wirklich brauchbar, oder ist es nur ein schöner Schein?

Zusammenfassend:
SPREADSHEETARENA ist wie ein großer Markt, auf dem KIs ihre Excel-Kunstwerke verkaufen. Die Studie hat uns gezeigt, dass der lauteste und bunte Stand nicht immer das beste Produkt hat. Um wirklich gute Arbeit zu leisten, müssen wir lernen, hinter die Kulissen zu schauen und zu verstehen, was eine wirklich gute Tabelle ausmacht – und nicht nur, wie sie aussieht.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „SPREADSHEETARENA: Decomposing Preference in LLM Generation of Spreadsheet Workbooks" auf Deutsch.

1. Problemstellung

Die Arbeit adressiert die Herausforderung, Large Language Models (LLMs) bei der End-to-End-Generierung von Tabellenkalkulations-Arbeitsmappen (Spreadsheet Workbooks) zu evaluieren. Im Gegensatz zu reinen Text- oder Code-Generierungsaufgaben stellen Tabellenkalkulationen eine komplexe, strukturierte Artefakt-Generierung dar, die folgende spezifische Schwierigkeiten mit sich bringt:

Hohe Dimensionalität und Kontextabhängigkeit: Die Qualität eines Tabellenkalkulations-Outputs hängt nicht nur von der syntaktischen Korrektheit ab, sondern von einer Vielzahl expliziter und impliziter Faktoren (z. B. fachspezifische Best Practices, Layout, Interaktivität, Lesbarkeit).
Mehrdimensionale Abhängigkeiten: Zellen und Formeln bilden ein dichtes, graphenartiges Abhängigkeitsnetzwerk. Fehler sind oft nicht offensichtlich und können durch einfache Ausführungstests (wie bei Code) nicht vollständig erfasst werden.
Fehlende Standard-Benchmarks: Während es für Code (z. B. HumanEval) und Text-Generierung etablierte Benchmarks gibt, fehlt es an einer umfassenden Evaluierungsplattform für Tabellenkalkulationen, die sowohl funktionale Korrektheit als auch ästhetische und fachliche Konventionen berücksichtigt.
Diskrepanz zwischen Nutzerpräferenz und Expertenstandard: Es ist unklar, ob die Präferenzen von Laien (Crowd-Votes) mit den strengen Standards von Domänenexperten (z. B. im Finanzwesen) übereinstimmen.

2. Methodik: SPREADSHEETARENA

Die Autoren stellen SPREADSHEETARENA vor, eine Plattform für „Arena-style"-Evaluierungen, bei der LLM-generierte Tabellenkalkulationen blind von Nutzern verglichen werden.

Aufgabenstellung: Modelle erhalten einen natürlichen Sprachprompt und müssen eine vollständige Tabellenkalkulations-Arbeitsmappe (als JSON-Struktur, die dann deterministisch gerendert wird) generieren.
Datenkollektion: Es wurden 4.357 paarweise Vergleiche (Blind Votes) zwischen anonymisierten Modellen gesammelt. Die Prompts decken sechs Kategorien ab: Akademisch/Forschung, Corporate Finance/FP&A, Kreativ/Generativ, Operations/Supply Chain, Professional Finance und SMB/Personal.
Ranking-Verfahren:
- Es wird das Bradley-Terry-Modell verwendet, um aus den paarweisen Votes Stärkeparameter ( $\theta$ ) zu schätzen.
- Diese Parameter werden in Elo-Ratings umgewandelt (ankergesetzt bei GPT-4o = 1000).
Feature-Adjustierte Analyse: Um zu verstehen, warum bestimmte Modelle gewinnen, wird das Bradley-Terry-Modell um 29 programmatisch extrahierte Merkmale erweitert (z. B. Fehlerquote der Formeln, Textdichte, Anzahl der Blätter, Formatierungsmerkmale). Dies ermöglicht eine Dekomposition der Präferenzen:
- $P(A \succ B) = \sigma(\theta_A - \theta_B + \sum \beta_k(X_{Ak} - X_{Bk}))$
- Dies erlaubt es, den Einfluss spezifischer Output-Eigenschaften von der reinen Modellstärke zu trennen.
Fehler-Taxonomie: Eine datengetriebene Taxonomie von 7 Fehlerkategorien (z. B. „Integrity Failure", „Presentation Deficiency") wurde entwickelt und mittels eines LLM-Judges auf die unterlegenen Modelle angewendet.
Experten-Evaluation: Im Finanzbereich wurde eine blind durchgeführte Expertenbewertung (5 Experten, 6 Dimensionen) durchgeführt, um die Übereinstimmung mit Crowd-Präferenzen zu testen.

3. Schlüsselbeiträge

SPREADSHEETARENA Plattform: Einführung einer Live-Plattform für die Evaluierung von LLMs bei der Generierung komplexer strukturierter Artefakte (Tabellenkalkulationen) mit über 4.000 Votes.
Stabile Rankings & Feature-Decomposition: Etablierung von Rankings für 16 Modelle (inkl. Claude, Gemini, GPT-5, Grok, Llama, Qwen). Die Arbeit zeigt, dass die Anpassung an beobachtbare Merkmale die Leaderboard-Rankings signifikant komprimiert und domänenspezifische Unterschiede aufdeckt.
Fehler-Analyse: Identifikation charakteristischer Fehlermuster verschiedener Modellfamilien (z. B. Claude neigt zu korrekten Strukturen, aber logischen Fehlern; schwächere Modelle scheitern oft an der Spezifikationserfüllung).
Domänen-Disparität: Nachweis, dass Crowdsourcing-Präferenzen in spezialisierten Domänen (wie Finanzwesen) nur begrenzt mit Expertenstandards übereinstimmen.

4. Wichtige Ergebnisse

A. Allgemeine Rankings und Feature-Effekte

Claude-Modelle (insb. Opus 4.5) führen das globale Ranking an.
Feature-Adjustierung: Wenn man für Merkmale wie Textmenge, Formatierung und Zellfüllung kontrolliert, sinken die Elo-Punkte der Spitzenmodelle (z. B. Claude Opus 4.5 verliert 217 Punkte), während schwächere Modelle (Qwen3, Llama 4) relativ aufholen. Dies deutet darauf hin, dass die Präferenz für „bessere" Modelle teilweise auf visuellen Merkmalen (Formatierung, Textmenge) und nicht nur auf funktionaler Korrektheit beruht.
Signifikante Merkmale: Textdichte, Hintergrundfüllungen und numerischer Inhalt korrelieren positiv mit dem Sieg. Formel-Fehlerquoten korrelieren stark negativ. Komplexität der Formeln (Lookup-Funktionen) hat jedoch keinen signifikanten Einfluss auf die Präferenz.

B. Domänenspezifische Unterschiede

Akademisch vs. Finanzen:
- In der akademischen Kategorie führt eine starke Formatierung (z. B. Zahlenformatierung) zu einer negativen Bewertung (Präferenz für rohe, transparente Daten). Claude-Modelle, die stark formatieren, fallen hier stark ab (von Platz 1 auf 9).
- In der Finanz-Kategorie sind professionelle Konventionen (z. B. Farbcodierung: Blau für Inputs, Schwarz für Formeln) entscheidend. Modelle, die diese Konventionen einhalten, werden bevorzugt.
Fehlerprofile:
- Claude-Modelle: Haben selten Formatierungsfehler oder unvollständige Outputs, scheitern aber häufiger an Integritätsfehlern (z. B. nicht verknüpfte Treiber) und numerischen Berechnungsfehlern, die für Laien schwer zu erkennen sind.
- Schwächere Modelle (Llama, Qwen): Scheitern häufig an Spezifikations-Nichteinhaltung (fehlende Blätter, falsche Dimensionen) und Funktionalität.

C. Experten vs. Crowd (Finanzbereich)

Die Expertenbewertung ergab eine durchschnittliche Bewertung von 2,87/5 für LLM-generierte Finanzmodelle.
Geringe Übereinstimmung: In nur 42,3 % der Fälle stimmte das Expertenurteil mit dem Arena-Ergebnis überein.
Schwächste Dimension: „Farbcodierung & Formatierung" erhielt den niedrigsten Score (Mittelwert 1,95). Experten kritisieren, dass LLMs etablierte Branchenstandards (z. B. „eine Zeile, eine Formel", Trennung von Inputs und Berechnungen) oft nicht einhalten, was die Modelle für den professionellen Einsatz unbrauchbar macht.

5. Bedeutung und Fazit

Die Arbeit zeigt, dass die Generierung von Tabellenkalkulationen eine hochkomplexe Aufgabe ist, die über reine Code-Generierung hinausgeht.

Limitationen aktueller Modelle: Auch die leistungsstärksten LLMs produzieren Tabellenkalkulationen, die zwar oft syntaktisch korrekt und visuell ansprechend sind, aber in kritischen Domänen (Finanzen) oft fachliche Best Practices verletzen und manuelle Nacharbeit erfordern.
Implikationen für das Training: Die Studie warnt davor, dass reine paarweise Präferenzdaten (RLHF/DPO) für strukturierte Generierungsaufgaben irreführend sein können, da sie oft stilistische Merkmale über funktionale Korrektheit oder fachliche Standards stellen.
Zukünftige Arbeit: Es wird gefordert, Evaluierungen zu verbessern, die sowohl Crowdsourcing als auch Experten-Rubriken integrieren, und Trainingsdaten zu kuratieren, die spezifische Domänenkonventionen (z. B. Finanzmodellierung) explizit belohnen.

Zusammenfassend liefert SPREADSHEETARENA einen wichtigen ersten Schritt zur systematischen Evaluierung von LLMs in einem Bereich, der für Millionen von Anwendern (von Hobby-Nutzern bis zu Finanzanalysten) von zentraler Bedeutung ist, und deckt die Lücke zwischen „happiger" Nutzerpräferenz und professioneller Qualität auf.