Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat je met één oog (een camera) naar een drukke straat kijkt. Je ziet de auto's voor je, de bomen aan de zijkant en de gebouwen. Maar wat zit er achter die auto's? Wat zit er in de hoek die door een lantaarnpaal wordt verstopt?
Voor een zelfrijdende auto is het niet genoeg om alleen te zien wat er direct zichtbaar is. De auto moet een compleet 3D-geheugen van de hele wereld hebben, inclusief de delen die hij niet kan zien. Dit noemen we 3D Semantische Scenecompletie.
Het probleem is dat bestaande methoden vaak proberen om het hele plaatje in één keer te raden. Ze kijken naar de zichtbare auto en proberen dan direct te gokken wat erachter zit. Dit werkt niet goed: de "gok" over het onzichtbare deel verstoort vaak de nauwkeurige waarneming van het zichtbare deel. Het is alsof je probeert een puzzel te maken terwijl je de randstukken (het zichtbare) en de binnenstukken (het onzichtbare) door elkaar heen probeert te leggen; je maakt dan fouten in beide delen.
VOIC (Visible–Occluded Integrated Guidance) is een nieuwe, slimme manier om dit op te lossen. Hier is hoe het werkt, vertaald naar alledaagse termen:
1. De Twee Spelers: De Waarnemer en de Dromer
In plaats van één brein dat alles tegelijk doet, heeft VOIC twee gespecialiseerde "spelers" (decoderen):
- De Waarnemer (Visible Decoder): Deze kijkt alleen naar wat er echt te zien is. Hij is als een fotograaf die alleen scherpstelt op de auto's die voor hem staan. Hij maakt een perfecte, gedetailleerde schets van wat hij ziet. Hij mag niet afgeleid worden door het raden van wat erachter zit.
- De Dromer (Occlusion Decoder): Deze kijkt naar de schets van de Waarnemer en zegt: "Oké, ik zie een auto. Logischerwijs moet er een weg zijn waar die auto op rijdt, en er moet een gebouw achter staan, ook al kan ik het niet zien." De Dromer vult de gaten in, gebaseerd op logica en de schets van de Waarnemer.
2. De Nieuwe Regel: "Scheid de Taken"
Het grootste geheim van VOIC is een trucje dat ze VRLE noemen.
Stel je voor dat je een leraar bent die een leerling helpt met een tekening.
- De oude manier: De leraar zegt: "Teken de hele kamer perfect, inclusief wat er achter de kast zit." De leerling raakt in de war en tekent de kast (het zichtbare) misschien scheef omdat hij te veel bezig is met het raden van de kast (het onzichtbare).
- De VOIC-methode: De leraar zegt eerst: "Teken alleen de kast die je ziet, perfect." Pas daarna zegt hij: "Nu, gebruik die perfecte tekening van de kast om te raden wat erachter zit."
Dit zorgt ervoor dat de basis (het zichtbare deel) superstrak is, voordat de machine begint te "hallucineren" over de rest.
3. De Bouwmeester (VEFC)
Voordat de twee spelers beginnen, moet de 2D-foto (een platte foto) omgezet worden in een 3D-wereld. VOIC gebruikt een slimme bouwmethode (de Visible Embedding Feature Constructor).
Stel je voor dat je een platte tekening van een huis hebt en je moet er een 3D-model van maken. Veel methoden gooien gewoon blokjes neer waar ze denken dat muren zijn. VOIC gebruikt echter de diepte-informatie als een "schets" en plakt de foto-tekstuur alleen daar waar het logisch is. Dit voorkomt dat de machine "geestelijke blokken" bouwt op plekken waar niets is.
Waarom is dit belangrijk?
Voor zelfrijdende auto's is dit levensreddend. Als een auto niet goed kan raden wat er achter een vrachtwagen zit, kan hij niet veilig inhalen.
- Beter zien: VOIC ziet de zichtbare objecten (zoals fietsers en auto's) scherper en nauwkeuriger.
- Beter raden: Omdat de basis zo goed is, is de "gok" over wat erachter zit ook veel slimmer en betrouwbaarder.
Kort samengevat:
VOIC is als een team van twee detectives. De eerste detective (de Waarnemer) verzamelt alleen feitelijke bewijzen van wat hij ziet. De tweede detective (de Dromer) gebruikt die feiten om het verhaal van de rest van de scène te reconstrueren. Door deze twee taken strikt te scheiden en ze daarna weer slim te laten samenwerken, krijgt de zelfrijdende auto een veel duidelijker en veiliger beeld van de wereld om hem heen.