GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

GenHOI is een lichtgewicht uitbreiding voor bestaande videomodellen die door middel van tijdelijk gebalanceerde en ruimtelijk selectieve objectinjectie fysiek plausibele en object-consistente hand-object-interacties genereert, zelfs in complexe, onbekende scènes.

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang

Gepubliceerd 2026-03-09
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een filmpje maakt van iemand die een product vasthoudt, zoals een nieuwe smartphone of een flesje frisdrank. In de echte wereld is dit makkelijk: je pakt het object, het blijft hetzelfde, en je hand past zich eromheen aan. Maar in de digitale wereld is dit een enorme hoofdpijn voor computers.

Tot nu toe hadden computers twee grote problemen bij het maken van zulke video's:

  1. Het object veranderde: Als je een rode beker vasthield, werd die na een paar seconden soms blauw, of had ineens een ander logo. Het was alsof de computer het voorwerp vergeten was.
  2. De interactie zag er raar uit: De hand leek soms door het object te gaan (alsof het spookte) of het object zweefde er net boven zonder echt aan te raken.

Deze paper introduceert GenHOI, een slimme nieuwe methode die dit oplost. Laten we het uitleggen met een paar creatieve vergelijkingen.

De Grote Uitdaging: De "Vergeetachtige Regisseur"

Stel je een filmregisseur voor die een scène moet draaien met een acteur en een heel belangrijk rekwisiet (bijvoorbeeld een magische staf).

  • De oude methoden waren als een regisseur die de staf alleen in de eerste seconde goed zag. Naarmate de scène langer duurde, vergat de regisseur hoe de staf er precies uitzag. Soms werd het een toverstaf, soms een broodje, en soms verdween hij helemaal.
  • Andere methoden probeerden de staf gewoon "in te plakken" op het scherm, maar dan zag het eruit alsof iemand een sticker op een foto plakte. De hand raakte de staf niet echt aan; het leek nep.

GenHOI is als een super-regisseur die twee nieuwe trucs heeft om dit perfect te maken.

Truc 1: De "Sluipende Tijdklok" (Head-Sliding RoPE)

Het eerste probleem was dat de computer de staf alleen heel goed onthield aan het begin van het filmpje, en daarna steeds minder.

GenHOI lost dit op met iets dat ze Head-Sliding RoPE noemen.

  • De Analogie: Stel je voor dat je een groep vrienden (de "hoofden" van het brein van de computer) hebt die samen een verhaal vertellen. In de oude manier vertelde één vriend het verhaal alleen aan het begin, en de anderen luisterden niet goed.
  • De GenHOI-oplossing: Met deze truc "schuiven" de vrienden om de beurt. De ene vriend kijkt naar het object in het begin van het filmpje, de volgende vriend kijkt er halverwege naar, en de laatste kijkt er aan het einde naar.
  • Het Resultaat: Door deze "schuivende" aandacht te verspreiden over de tijd, vergeet de computer het object nooit. Het blijft er consistent uitzien van seconde 1 tot seconde 100, net als in het echte leven.

Truc 2: De "Slimme Magneet" (Spatial Attention Gate)

Het tweede probleem was dat de computer soms verward raakte. Het wist niet precies waar het object moest komen en waar de achtergrond moest blijven. Soms probeerde het de achtergrond ook te vervormen, of liet het de hand door het object gaan.

GenHOI gebruikt hier een twee-laags magneetsysteem (de Spatial Attention Gate):

  1. De Harde Magneet (Hard Mask Gate): Dit is als een onzichtbare muur. De computer zegt: "Oké, de magische staf mag alleen naar de plek waar de hand is. De achtergrond (zoals de muur of de vloer) mag de staf niet aanraken." Dit zorgt ervoor dat de achtergrond er echt en rustig blijft, terwijl de interactie op de hand plaatsvindt.
  2. De Zachte Magneet (Soft Flow Gate): Dit is als een dimmer-schakelaar voor licht. De computer kijkt naar de hand en zegt: "Hier, waar de hand de staf vastpakt, moet de interactie heel sterk zijn. Maar hier, waar de hand net langs beweegt, mag het iets zachter zijn." Hierdoor past de hand zich perfect aan het vorm van het object aan, alsof het echt vastzit.

Waarom is dit zo speciaal?

De meeste andere systemen moeten getraind worden met duizenden specifieke voorbeelden van precies dat ene product. Als je een nieuw product wilt laten zien, werkt het niet.

GenHOI is als een veeleerzame student die al een heel brede kennis heeft van hoe mensen en objecten werken. Je hoeft alleen maar één foto van het nieuwe object te geven, en de computer snapt direct: "Ah, dit is een kopje, en de hand moet eromheen grijpen."

Samenvatting in één zin

GenHOI is een slimme tool die ervoor zorgt dat als je een video maakt van iemand die een object vasthoudt, dat object er altijd hetzelfde uitziet (niet verandert van kleur of vorm) en dat de hand er echt omheen lijkt te grijpen, zelfs in moeilijke situaties die de computer nog nooit eerder heeft gezien.

Het is alsof je een digitale filmregisseur hebt die nooit vergeet hoe een voorwerp eruitziet en die precies weet waar de hand moet liggen, zodat het eruitziet als een echte, fysieke wereld.