CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een 3D-ontwerper bent, zoals een architect of een ingenieur die auto's of meubels ontwerpt. In de echte wereld gebruiken ze speciale software (CAD) om objecten te bouwen. Maar hoe werkt die software eigenlijk? Het is niet alsof ze een blokje naar een ander blokje slepen. Nee, ze schrijven een recept of een bouwplan.

Dit bouwplan is een reeks van instructies: "Teken een lijn, maak er een cirkel van, duw dit omhoog, knip dit stuk eraf." Dit noemen ze een sequentie (een volgorde).

Het Probleem: De Verkeerde Vertaler

De onderzoekers in dit paper hebben een probleem ontdekt. Ze wilden een slimme computer (een AI) leren om deze bouwplannen te maken op basis van gewone tekst. Bijvoorbeeld: "Maak een stoel met een hoge rugleuning."

Het probleem was dat de standaard-AI's (zoals de grote taalmodellen die we vandaag de dag gebruiken) niet goed kunnen omgaan met deze technische bouwplannen.

De analogie: Stel je voor dat je een boek in het Nederlands hebt, maar de vertaler die je gebruikt, breekt elk woord op in losse letters of rare stukjes. Het woord "extrude" (een techniekterm voor 'omhoog duwen') wordt door de standaard-AI opgebroken in [extru] en [sion].
Het gevolg: De AI ziet alleen losse letters en leest de zin niet als een logisch geheel. Ze ziet geen "bouwstap", maar alleen rommel. Hierdoor maakt de AI fouten, bouwt ze rare vormen, of begrijpt ze niet wat je bedoelt met "knip dit stuk eraf".

De Oplossing: CAD-Tokenizer

De onderzoekers hebben een nieuwe tool bedacht, genaamd CAD-Tokenizer. Dit is als een speciale vertaler die is getraind om precies te weten wat een "bouwstap" is.

In plaats van woorden op te breken in letters, leert deze tool de AI om te denken in bouwstenen (primitieven):

De "Lego-blokjes": De AI leert dat een hele zin als line, 10, 7 eigenlijk één blokje is: "Teken een lijn van 10 naar 7".
De "Recept-stap": In plaats van te kijken naar letters, kijkt de AI naar hele stappen: "Doe een extrude-stap".

Hoe werkt dit in de praktijk?
Stel je voor dat je een chef-kok bent (de AI).

De oude manier: De kok krijgt een recept geschreven in een taal die hij niet kent, en hij moet elk woord letterlijk uitspellen. Hij maakt een soep, maar omdat hij "ui" en "snijd" niet als één begrip ziet, gooit hij de ui in de soep zonder te snijden.
De nieuwe manier (CAD-Tokenizer): De kok krijgt een kaart met duidelijke pictogrammen: "1. Snijd ui", "2. Bak ui", "3. Voeg water toe". Hij begrijpt direct wat de stap is en maakt een perfecte soep.

Twee Taken in Eén

Wat dit onderzoek zo speciaal maakt, is dat ze niet alleen een AI hebben gemaakt die nieuwe stoelen kan ontwerpen (van tekst naar 3D), maar ook een AI die bestaande stoelen kan aanpassen (tekst naar bewerking).

Vroeger: Je had één robot voor het bouwen en een andere robot voor het repareren.
Nu: Met CAD-Tokenizer heb je één slimme robot die beide kan. Hij begrijpt dat als je zegt "Maak de poten langer", hij niet de hele stoel opnieuw moet bouwen, maar alleen die specifieke stap moet aanpassen in het bouwplan.

De "Verkeersregelaar" (FSA)

Er is nog een slimme truc: de FSA (Finite State Automaton).
Stel je voor dat de AI een kind is dat bouwt met Lego. Het kind kan soms gekke dingen doen, zoals een blokje in de lucht laten zweven. Dat is geen geldig bouwwerk.
De onderzoekers hebben een verkeersregelaar gebouwd die naast de AI staat. Deze regelaar zegt: "Stop! Je kunt nu geen cirkel tekenen, want je bent nog niet klaar met de lijn."
Dit zorgt ervoor dat de AI alleen geldige, logische bouwplannen maakt. Geen zwevende blokken, alleen stevige constructies.

Conclusie

Kortom: CAD-Tokenizer is een nieuwe manier om computers te leren praten in de taal van ontwerpers.

Het stopt met het opbreken van woorden in letters.
Het leert de computer om te denken in logische bouwstappen.
Het zorgt ervoor dat één AI zowel nieuwe ontwerpen kan maken als bestaande ontwerpen kan verbeteren.

Dit betekent dat in de toekomst ingenieurs en ontwerpers gewoon kunnen praten tegen hun computer: "Maak die deur breder en voeg een raam toe," en de computer zal precies weten wat er moet gebeuren, zonder dat er rare, onbruikbare vormen ontstaan. Het maakt het ontwerpen van de wereld om ons heen sneller en makkelijker.

CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

Het Probleem: De Verkeerde Vertaler

De Oplossing: CAD-Tokenizer

Twee Taken in Eén

De "Verkeersregelaar" (FSA)

Conclusie

Probleemstelling

Methodologie: CAD-Tokenizer

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

CAD-Tokenizer: Towards Text-based CAD Prototyping via Modality-Specific Tokenization

Het Probleem: De Verkeerde Vertaler

De Oplossing: CAD-Tokenizer

Twee Taken in Eén

De "Verkeersregelaar" (FSA)

Conclusie

Probleemstelling

Methodologie: CAD-Tokenizer

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer

Spectral Edge Dynamics Reveal Functional Modes of Learning

S3S^3S3: Stratified Scaling Search for Test-Time in Diffusion Language Models

$S^3$ : Stratified Scaling Search for Test-Time in Diffusion Language Models