Autoregressive Synthesis of Sparse and Semi-Structured Mixed-Type Data

Das Paper stellt Origami vor, ein auf autoregressiven Transformern basierendes Modell, das erstmals semistrukturierte, spärliche und gemischt-typische Daten (wie JSON) ohne vorherige Verflachung oder Imputation nativ synthetisiert und dabei bestehende Methoden in Bezug auf Genauigkeit, Nutzbarkeit und Privatsphäre übertrifft.

Thomas Rückstieß, Robin Vujanic

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest eine neue Stadt bauen, aber du hast keine echten Bewohner, nur eine riesige, chaotische Liste von Notizen aus dem echten Leben. Diese Notizen sind nicht wie eine saubere Excel-Tabelle, wo jeder in jeder Zeile die gleichen Spalten hat. Stattdessen sind sie wie persönliche Tagebücher oder JSON-Daten: Manche Einträge haben eine Adresse, andere nicht. Manche haben eine Liste von Hobbys (die mal drei, mal zehn Einträge lang ist), andere haben ein komplexes Familienverzeichnis mit verschachtelten Details.

Das Problem: Die meisten Computerprogramme, die künstliche Daten erstellen, sind wie sture Bauarbeiter, die nur mit starren Bauplänen (festen Tabellen) arbeiten können. Wenn sie diese chaotischen Tagebücher bekommen, versuchen sie, alles in ein riesiges, leeres Raster zu zwängen. Sie füllen die Lücken mit „Nullen" oder Durchschnittswerten auf, bis das Bild verzerrt ist und die echten Muster verloren gehen. Es ist, als würdest du versuchen, einen fließenden Fluss in ein starres Gitter aus Beton zu gießen – das Wasser (die Daten) passt einfach nicht.

Origami ist der neue, cleere Architekt, der dieses Problem löst.

Was ist Origami?

Der Name ist kein Zufall. Wie beim Papierfalten, bei dem man aus einem flachen Blatt komplexe, dreidimensionale Formen macht, nimmt Origami die flachen Daten und „faltet" sie in ihre wahre, komplexe Form zurück.

Hier ist, wie es funktioniert, in einfachen Bildern:

1. Keine mehr, keine weniger (Kein „Flattening")

Statt die Tagebücher gewaltsam in eine riesige Tabelle zu zerlegen, liest Origami sie wie ein Bücherwurm, der den Text Zeile für Zeile, Wort für Wort liest.

  • Andere Methoden: Versuchen, jeden Satz in eine eigene Spalte zu stecken. Wenn ein Satz fehlt, entsteht eine riesige Lücke.
  • Origami: Versteht, dass ein Satz (ein Schlüssel) zu einem anderen gehört (ein verschachteltes Objekt). Es behält die Hierarchie bei. Es weiß: „Ah, die Adresse gehört zur Person, und die Telefonnummer gehört zur Adresse."

2. Der intelligente Übersetzer (Tokenisierung)

Origami verwandelt die Daten in eine Art Baukasten-Sprache.

  • Es zerlegt die Daten in kleine Bausteine: Schlüssel (z. B. "Name"), Werte (z. B. "Max") und Struktur-Bausteine (z. B. "Hier beginnt eine Liste", "Hier endet ein Abschnitt").
  • Der Clou: Es ignoriert nicht die Lücken (Sparsity). Wenn ein Eintrag keine Telefonnummer hat, sagt es nicht „Fülle mit Null", sondern „Hier fehlt eine Telefonnummer, und das ist normal". Es lernt, dass das Fehlen von Daten selbst eine Information ist.

3. Der tanzende Schlüssel (Key-Order Shuffling)

In echten Datenbanken ist die Reihenfolge, in der Dinge aufgelistet sind, oft zufällig. Ein Computer, der stur lernt, dass „Name" immer vor „Adresse" kommt, lernt die falsche Regel.

  • Origamis Trick: Es mischt die Reihenfolge der Wörter bei jedem Training neu durch, wie ein Kartenspieler, der das Deck immer wieder neu schüttelt.
  • Der Effekt: Der Computer kann nicht einfach auswendig lernen, was als Erstes kommt. Er muss wirklich verstehen, was die Dinge bedeuten und wie sie zusammenhängen. Das verhindert, dass er einfach Kopien der Originaldaten auswendig lernt (Memorierung).

4. Der doppelte Hut (Dual-Head Architecture)

Die Welt besteht aus verschiedenen Arten von Dingen: Wörtern (Kategorien) und Zahlen.

  • Ein normaler Computer versucht oft, Zahlen in Wörter umzuwandeln (z. B. "100" wird zu "Einhundert"). Das ist ungenau.
  • Origami hat zwei Spezialisten: Einen, der mit Wörtern und Strukturen umgeht, und einen, der Zahlen direkt als Zahlen versteht (wie ein Mathematiker, der nicht zählen muss, sondern das Gefühl für Zahlen hat). So bleiben die Zahlen präzise, auch wenn sie sehr groß oder sehr klein sind.

Warum ist das so wichtig?

Stell dir vor, du willst eine neue App testen. Du brauchst Testdaten, aber du darfst die echten Kundendaten nicht verwenden (wegen Datenschutz).

  • Die alten Methoden würden dir eine Liste von Kunden geben, bei denen 40% der Adressen falsch sind oder die Namen zufällig gemischt wurden, weil sie die Daten nicht verstanden haben. Deine App würde abstürzen oder falsche Ergebnisse liefern.
  • Origami erstellt eine Liste von Kunden, die sich genau wie die echten anfühlen. Sie haben die gleichen Lücken, die gleichen komplexen Familienstrukturen und die gleichen Zufälligkeiten. Ein Hacker oder ein Datenschutzbeauftragter kann kaum unterscheiden, ob die Daten echt oder künstlich sind.

Das Ergebnis

In Tests hat Origami gezeigt, dass es:

  1. Besser lernt: Es versteht komplexe, verschachtelte Daten (wie JSON) viel besser als alle bisherigen Methoden.
  2. Schneller ist: Es braucht weniger Rechenleistung, weil es keine riesigen, leeren Tabellen erstellen muss.
  3. Sicherer ist: Es kopiert keine echten Personen, sondern erfindet neue, realistische Persönlichkeiten.

Zusammenfassend:
Während andere Methoden versuchen, einen fließenden Fluss in ein starres Gitter zu pressen, baut Origami einen neuen Fluss, der genauso fließt, genauso viele Kurven hat und genauso viele Fische enthält wie der Originalfluss – nur dass er aus dem Nichts erschaffen wurde. Es ist der erste Architekt, der versteht, dass moderne Daten nicht in Tabellen passen, sondern in lebendige, verschachtelte Strukturen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →