RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations

RnG is een door feed-forward Transformer aangedreven methode die reconstructie en generatie verenigt om via een causale attentiemechanisme en een KV-cache een volledige, impliciete 3D-weergave te voorspellen uit partiële 2D-observaties, waardoor zowel zichtbare geometrie nauwkeurig wordt gereconstrueerd als plausibele, onzichtbare structuren worden gegenereerd voor real-time toepassing.

Mochu Xiang, Zhelun Shen, Xuesong Li, Jiahui Ren, Jing Zhang, Chen Zhao, Shanshan Liu, Haocheng Feng, Jingdong Wang, Yuchao Dai

Gepubliceerd 2026-03-03
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een foto maakt van een theekopje. Je ziet de voorkant, de handgreep en een beetje van de zijkant. Maar wat zit er aan de achterkant? En wat zit er binnenin? Een mens kan zich dat zo voorstellen: "Ach, het is een kopje, dus aan de achterkant is het ook rond en heeft het een holle binnenkant."

Vroeger konden computers dit niet zo goed. Als je een computer een paar foto's gaf, zag hij alleen wat er op de foto's stond. De rest was een zwart gat.

Nu hebben onderzoekers RnG (Reconstruction and Generation) bedacht. Dit is een slimme computerprogrammatuur die doet alsof het een virtuele 3D-scan is, maar dan in een flits. Hier is hoe het werkt, vertaald naar alledaags taal:

1. De "Geheime Schatkist" (De KV-Cache)

Stel je voor dat RnG een detective is die een raadsel oplost.

  • De oude manier: Als de detective een nieuwe vraag krijgt ("Hoe ziet de achterkant eruit?"), moet hij opnieuw alle foto's bekijken, opnieuw nadenken en opnieuw tekenen. Dat duurt lang.
  • De RnG-methode: RnG kijkt eerst naar de foto's en bouwt een geheime schatkist (in de tech-taal heet dit een KV-Cache). In deze schatkist legt hij niet alleen de foto's neer, maar het geheel van het object: hoe het eruitziet, hoe het eruitziet van binnen, en hoe het eruitziet van alle kanten.
  • Zodra die schatkist vol is (wat in een fractie van een seconde gebeurt), hoeft hij nooit meer naar de originele foto's te kijken. Als je vraagt: "Hoe ziet het eruit als ik er omheen loop?", pakt hij gewoon een kaartje uit de schatkist en toont het je.

2. De "Slimme Leraar" (Causale Aandacht)

Hoe bouwt RnG die schatkist zo snel? Hij gebruikt een slimme truc die ze Reconstruction-Guided Causal Attention noemen. Laten we dat vergelijken met een klaslokaal:

  • De Leerlingen (De bronfoto's): Deze leerlingen mogen alleen naar elkaar kijken en samenwerken om het object te begrijpen. Ze mogen niet naar de vragen kijken die de leraar later gaat stellen.
  • De Vragen (De nieuwe hoekjes): De vragen die je stelt ("Wat zie ik als ik naar links kijk?") mogen wel naar de antwoorden van de leerlingen kijken, maar de leerlingen mogen niet door de vragen beïnvloed worden.

Dit zorgt ervoor dat het object (de leerling) altijd hetzelfde blijft, ongeacht hoe je er naar vraagt. Het voorkomt dat het object "verdraait" of dat er rare dingen verschijnen die er niet horen.

3. Wat kan RnG eigenlijk?

RnG is als een magische 3D-printer die in een seconde werkt:

  1. Je geeft hem een paar willekeurige foto's (zelfs als je niet weet hoe de camera precies stond).
  2. Hij bouwt het volledige object: Hij vult de gaten in. Als je de achterkant niet ziet op de foto, "droomt" hij die achterkant in, gebaseerd op wat hij wel ziet.
  3. Hij is supersnel: Terwijl andere slimme programma's (die werken met "diffusie", een soort van wiskundig roetvlekken-proces) minuten nodig hebben om één nieuw plaatje te maken, doet RnG dit in minder dan een seconde. Het is zo snel dat je er zelfs mee kunt spelen in een virtuele realiteit.

Waarom is dit belangrijk?

Vroeger waren 3D-modellen vaak onvolledig (als een poppenhuis zonder achterwand) of erg traag om te maken. RnG combineert het beste van twee werelden:

  • Het is nauwkeurig (het bouwt de vorm correct op).
  • Het is creatief (het vult de onzichtbare delen in op een manier die logisch is).
  • Het is snel (je kunt er direct mee werken).

Kortom: RnG is als een kunstenaar die met één blik op een halve foto een compleet, rond, 3D-standbeeld kan maken en je vervolgens mag rondlopen om het van alle kanten te bekijken, allemaal binnen een seconde. Het maakt de digitale wereld veel completer en interactiever.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →