Group Editing : Edit Multiple Images in One Go

Dit paper introduceert GroupEditing, een nieuw raamwerk dat expliciete geometrische correspondenties en impliciete videomodel-priors combineert om consistente en semantisch uitgelijnde bewerkingen over meerdere gerelateerde afbeeldingen met verschillende perspectieven mogelijk te maken.

Yue Ma, Xinyu Wang, Qianli Ma, Qinghe Wang, Mingzhe Zheng, Xiangpeng Yang, Hao Li, Chongbo Zhao, Jixuan Ying, Harry Yang, Hongyu Liu, Qifeng Chen

Gepubliceerd 2026-03-25
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een fotoreeks maakt van je hond die door een park loopt. Je wilt dat je hond in elke foto precies hetzelfde nieuwe, futuristische pakje draagt.

Het probleem? In de ene foto loopt je hond naar links, in de andere naar rechts, en in weer een andere springt hij. Als je een standaard AI-tool gebruikt om het pakje toe te voegen, krijg je vaak een rommel: in de ene foto zit het pakje op de rug, in de andere op de staart, en in een derde foto is het pakje helemaal verdwenen. De AI "weet" niet dat het dezelfde hond is in alle foto's.

GroupEditing is de oplossing voor dit probleem. Het is een slimme nieuwe methode die ervoor zorgt dat je wijzigingen (zoals een nieuw pakje, een andere achtergrond of een kleurverandering) consistent worden toegepast op een hele groep gerelateerde foto's.

Hier is hoe het werkt, uitgelegd met een paar creatieve vergelijkingen:

1. De "Pseudo-Video" Truc

Stel je voor dat je een fotoalbum hebt. Normaal gesproken kijkt een AI naar elke foto als een losse, geïsoleerde wereld. GroupEditing doet iets anders: het pakt al die losse foto's en plakt ze samen alsof het frames uit een video zijn.

  • De Analogie: Video's zijn geweldig omdat ze weten hoe dingen bewegen. Als je in een video ziet dat een bal van links naar rechts rolt, weet de computer dat het dezelfde bal is. GroupEditing gebruikt deze "video-geheugen" (die het heeft geleerd van bestaande videomodellen) om te begrijpen dat de hond in foto 1 en de hond in foto 5 hetzelfde dier zijn, zelfs als ze op verschillende posities staan.

2. Twee Soorten "Kijkbrillen"

Om de foto's perfect op elkaar af te stemmen, gebruikt de methode twee soorten "brillen" tegelijk:

  • Bril 1: De Impliciete Bril (De Video-expert): Dit is de video-bril die zegt: "Hey, dit lijkt op een beweging in een film." Het zorgt voor een natuurlijk gevoel van samenhang.
  • Bril 2: De Expliciete Bril (De Meetlat): Soms is een video-bril niet genoeg, vooral als de foto's heel sterk verschillen (bijvoorbeeld een extreme hoek). Daarom gebruiken ze een extra tool genaamd VGGT. Dit is als een super-scherpe meetlat die precies meet: "Dit punt op foto A correspondeert met dat punt op foto B." Het zorgt voor geometrische precisie.

Deze twee brillen worden samengevoegd. De meetlat (VGGT) geeft de video-bril extra steun, zodat de AI nooit de weg kwijtraakt, zelfs niet bij complexe hoeken.

3. De "Identiteits-anker" (Identity-RoPE)

Een groot probleem bij het bewerken van foto's is dat de AI soms vergeet hoe het object er oorspronkelijk uitzag. Je hond kan ineens een ander gezicht krijgen.

GroupEditing lost dit op met een Identiteits-anker.

  • De Analogie: Stel je voor dat je een poppenkast hebt. Je wilt de poppenkast schilderen, maar je wilt niet dat de poppen veranderen in andere poppen. Het Identiteits-anker is als een onzichtbaar touwtje dat elke pop stevig vasthoudt op zijn plek. Zelfs als je de achtergrond schildert of de kleding verandert, blijft het gezicht van de hond exact hetzelfde. Dit zorgt ervoor dat je hond er in elke foto nog steeds uit ziet als jouw hond.

4. De Grote Bibliotheek (GroupEditData)

Om dit systeem te leren, hadden de onderzoekers duizenden voorbeelden nodig. Maar bestaande datasets waren niet goed genoeg. Dus bouwden ze hun eigen bibliotheek, GroupEditData.

  • Ze gebruikten slimme computers om duizenden foto-groepen te maken, elk met een perfecte beschrijving en een masker (een precieze omtrek) van elk object. Het is alsof ze een trainingscampus hebben gebouwd waar de AI oefent met het consistent bewerken van foto's, tot het perfect is.

Waarom is dit belangrijk?

Vroeger moest je elke foto handmatig bewerken om ze consistent te houden, wat uren werk kostte. Met GroupEditing kun je in één keer zeggen: "Maak van deze hele serie foto's een winterse versie," en de AI doet het voor je.

  • Voor online winkels: Je kunt een product (zoals een fiets) in 20 verschillende hoeken laten zien, en de AI zorgt dat de kleur en het ontwerp in elke hoek exact hetzelfde zijn.
  • Voor films en games: Je kunt personages in verschillende scènes consistent laten veranderen zonder dat ze er ineens anders uitzien.

Kortom: GroupEditing is de "magische lijm" die een losse verzameling foto's omtovert tot een samenhangend verhaal, waarbij elke wijziging perfect wordt doorgevoerd in elk frame, zonder dat de identiteit van de objecten verloren gaat.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →