DriveCode: Domain Specific Numerical Encoding for LLM-Based Autonomous Driving

Dit paper introduceert DriveCode, een nieuwe numerieke coderingsmethode die getallen als speciale embeddings in plaats van teksttokens representeert om de precisie en efficiëntie van LLM-gebaseerde autonome rijsystemen te verbeteren.

Zhiye Wang, Yanbo Jiang, Rui Zhou, Bo Zhang, Fang Zhang, Zhenhua Xu, Yaqin Zhang, Jianqiang Wang

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

DriveCode: De "Digitale Schaal" voor Slimme Auto's

Stel je voor dat je een zeer intelligente, maar soms wat verwarde robotbestuurder hebt. Deze robot is een Grote Taalmodel (LLM). Hij is een meester in het begrijpen van verhalen, het zien van beelden en het geven van logische uitleg. Hij kan perfect vertellen: "Ik zie een rode lichten, dus ik ga remmen."

Maar hier zit het probleem: als je hem vraagt: "Hoe hard moet ik precies remmen? 3,5 meter per seconde of 3,6?", dan begint hij te twijfelen. Waarom? Omdat voor deze robot getallen gewoon woorden zijn.

Het Probleem: Getallen als Woorden

Voor een gewone computer is het getal 3,5 iets heel anders dan 3,6. Voor een taalmodel zijn het echter gewoon twee verschillende reeksen letters: "drie punt vijf" versus "drie punt zes".
Het model ziet de letters, maar voelt niet het gewicht van het getal. Het is alsof je een weegschaal probeert te bouwen met woorden in plaats van gewichten. Soms denkt de robot dat 3,11 zwaarder is dan 3,8, omdat "11" meer letters heeft dan "8". In de echte wereld, waar een auto moet sturen en remmen, kan zo'n klein foutje leiden tot een ongeluk.

De Oplossing: DriveCode

De onderzoekers van dit paper hebben DriveCode bedacht. Dit is als het geven van een speciale "digitale schaal" aan de robot.

In plaats van getallen als woorden te behandelen, behandelt DriveCode ze als echte, continue waarden.

Hier is hoe het werkt, met een paar creatieve vergelijkingen:

1. De "Vertaler" (De Projector)
Stel je voor dat de robot een kamer binnenkomt waar drie soorten mensen zitten:

  • Mensen die foto's beschrijven (visueel).
  • Mensen die verhalen vertellen (tekst).
  • Mensen die cijfers fluisteren (nummers).

Tot nu toe moest de robot de cijfers eerst omzetten in woorden voordat hij ze kon horen. Dat was traag en onnauwkeurig.
DriveCode introduceert een speciale vertaler (de Number Projector). Deze vertaler pakt het cijfer direct op en zet het om in een "gevoel" of een "signaal" dat de robot direct kan begrijpen, zonder dat het eerst een woord hoeft te worden. Het is alsof je in plaats van "ik heb honger" te zeggen, direct een signaal geeft dat de maag van de robot laat knorren.

2. De "Directe Schakelaar" (De Number Head)
Wanneer de robot een antwoord moet geven, moet hij vaak een getal teruggeven (bijvoorbeeld: "Stuur 5 graden naar links").

  • Oude manier: De robot moet letter voor letter typen: "5", dan " ", dan "g", dan "r", dan "a", dan "d", dan "e", dan "s". Dit is traag en foutgevoelig.
  • DriveCode manier: De robot heeft nu een directe schakelaar. Hij denkt aan het getal en schakelt het direct in. Hij hoeft niet meer te "typen" in cijfers, maar schakelt direct de waarde over. Dit gaat veel sneller en is veel preciezer.

Waarom is dit belangrijk?

In het rijden gaat het om continuïteit. Een auto rijdt niet in stappen van "woord 1, woord 2", maar in een vloeiende stroom van snelheid en richting.

  • Als je snelheid 50 km/u is en je moet remmen naar 49,9 km/u, dan is dat een klein, vloeiend verschil.
  • Voor een taalmodel dat met woorden werkt, is dat een groot gat tussen twee verschillende woorden.

DriveCode zorgt ervoor dat de robot de fysieke realiteit van het rijden voelt. Hij begrijpt dat 49,9 heel dicht bij 50 ligt, en niet ver weg.

Het Resultaat

De onderzoekers hebben DriveCode getest op verschillende datasets (zoals DriveGPT4 en OmniDrive). Het resultaat?

  • Preciezer: De auto's remmen en sturen nauwkeuriger.
  • Sneller: Omdat de robot niet meer hoeft te "typen" in cijfers, reageert hij sneller.
  • Veiliger: Minder kans op rare foutjes (zoals denken dat 3,11 groter is dan 3,8).

Samenvattend

DriveCode is als het geven van een speciale bril aan een slimme robot. Zonder deze bril ziet hij getallen als wazige woorden. Met DriveCode ziet hij de getallen als heldere, precieze waarden die direct aansluiten bij hoe de echte wereld werkt. Hierdoor kunnen we in de toekomst veel veiligere en slimmere zelfrijdende auto's bouwen die niet alleen "praten" over rijden, maar het ook precies doen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →