CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

Die Arbeit stellt CAD-Tokenizer vor, ein Framework, das durch modality-spezifische Tokenisierung und primitive-basierte Kodierung die Text-zu-CAD-Generierung und -Bearbeitung verbessert, indem sie die strukturellen Semantiken von CAD-Modellen besser erfasst als herkömmliche LLM-Tokenisierer.

Ruiyu Wang, Shizhao Sun, Weijian Ma, Jiang Bian

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der Übersetzer, der alles durcheinanderbringt

Stell dir vor, du bist ein Architekt und möchtest einem Roboter sagen: „Baue mir eine Tasse mit einem Henkel."

In der Welt des Computer-Aided Design (CAD) ist das keine einfache Liste von Maßen. Es ist eher wie ein Rezept, das in Schritten geschrieben ist:

  1. Zeichne einen Kreis.
  2. Ziehe ihn hoch (Extrusion).
  3. Zeichne eine Linie für den Henkel.
  4. Biege sie um.

Bisher haben KI-Modelle (wie große Sprachmodelle) versucht, diese Rezepte zu lesen. Aber sie benutzten einen falschen Übersetzer. Dieser Übersetzer zerlegte das Rezept in winzige, sinnlose Wortfetzen, wie ein Koch, der ein Rezept in einzelne Buchstaben zerlegt: „Z", „e", „i", „c", „h", „n", „e"...

Das Problem: Der Roboter versteht nicht mehr, dass „Zeichne" eine ganze Anweisung ist. Er sieht nur Buchstaben. Er verliert den Überblick über die Struktur und baut am Ende einen Haufen Schrott statt einer Tasse.

Die Lösung: CAD-Tokenizer – Der neue Chef-Koch

Die Forscher haben einen neuen Ansatz namens CAD-Tokenizer entwickelt. Stell dir das wie einen spezialisierten Übersetzer vor, der nicht auf Buchstaben, sondern auf Bausteine achtet.

Statt das Rezept in Buchstaben zu zerlegen, fasst er es in sinnvolle Blöcke zusammen:

  • Block 1: [Kreis zeichnen]
  • Block 2: [Hochziehen]
  • Block 3: [Henkel hinzufügen]

Diese Blöcke nennt man „Primitiven" (die kleinsten sinnvollen Einheiten). Der KI-Modell bekommt jetzt nicht mehr 50 Buchstaben zu lesen, sondern nur noch 5 klare Bausteine. Das ist wie der Unterschied zwischen einem Text, der in winzigen Buchstaben geschrieben ist, und einem Text, der in klaren, gut lesbaren Absätzen formatiert ist.

Die drei genialen Tricks

Die Forscher haben drei Dinge getan, um das System perfekt zu machen:

1. Der Kompressor (VQ-VAE)
Stell dir vor, du hast einen riesigen Haufen Lego-Steine. Der alte Weg war, jeden einzelnen Stein einzeln zu zählen. Der neue Weg (der VQ-VAE) ist wie ein intelligenter Kompressor. Er packt die Lego-Steine in fertige, vorgefertigte Sets (die Blöcke) und gibt dem Roboter nur noch die Anweisung: „Nimm Set A, dann Set B." Das spart enorm viel Zeit und Speicherplatz.

2. Der Dolmetscher (Adapter)
Die KI (das große Sprachmodell) spricht eigentlich nur „Menschlich" (Wörter). Die CAD-Blöcke sprechen „CAD". Damit sie sich verstehen, haben die Forscher einen kleinen Dolmetscher (Adapter) eingebaut. Dieser Dolmetscher sitzt zwischen dem Kompressor und der KI und sorgt dafür, dass die KI die CAD-Blöcke genau so versteht, als wären es ihre eigenen Wörter. So muss man die ganze KI nicht neu erfinden, man gibt ihr nur eine neue Sprache bei.

3. Der Bauleiter (FSA)
Wenn man einem Roboter freies Feld lässt, baut er manchmal Unsinn (z. B. einen Henkel, der in der Luft schwebt). Damit das nicht passiert, haben die Forscher einen Bauleiter (Finite State Automaton) hinzugefügt.
Stell dir das wie ein Regelwerk vor: „Du darfst erst einen Henkel zeichnen, wenn die Tasse fertig ist." Der Bauleiter hält die Hand auf und sagt: „Stopp! Das geht noch nicht!" Er sorgt dafür, dass das Ergebnis immer technisch korrekt ist, bevor es überhaupt fertig ist.

Warum ist das so wichtig?

Bisher musste man zwei verschiedene KIs haben: Eine, die neue Tassen erfindet (Text-zu-CAD), und eine andere, die alte Tassen verändert (CAD-Bearbeitung).

Mit CAD-Tokenizer haben die Forscher eine Einzel-KI gebaut, die beides kann.

  • Sagst du: „Mach eine Tasse", baut sie eine.
  • Sagst du: „Mach den Henkel größer", ändert sie die bestehende Tasse.

Das Ergebnis

Durch diese Methode ist die KI viel schneller, macht viel weniger Fehler und versteht die Anweisungen viel besser. Es ist, als hätte man einem Architekten nicht mehr einen Stapel mit einzelnen Buchstaben gegeben, sondern ein fertiges, gut strukturiertes Bauplan-Buch.

Kurz gesagt: CAD-Tokenizer verwandelt das chaotische „Buchstabensalat"-Verständnis der KI in eine klare, strukturierte Sprache aus Bausteinen, damit Computer endlich so gut Designen können wie Menschen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →