Agent Banana: High-Fidelity Image Editing with Agentic Thinking and Tooling

Agent Banana is een hiërarchisch agent-systeem dat door middel van contextvouwing en afbeeldingslaag-decompositie professionele, meervoudige beeldbewerkingen met hoge fideliteit en objectgetrouwheid mogelijk maakt, terwijl het tegelijkertijd een nieuw 4K-evaluatiekader (HDD-Bench) introduceert om langdurige fouten te diagnosticeren.

Ruijie Ye, Jiayi Zhang, Zhuoxin Liu, Zihao Zhu, Siyuan Yang, Li Li, Tianfu Fu, Franck Dernoncourt, Yue Zhao, Jiacheng Zhu, Ryan Rossi, Wenhao Chai, Zhengzhong Tu

Gepubliceerd 2026-02-24
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een digitale fotograaf bent die een heel complexe opdracht krijgt: "Maak van deze foto een winterlandschap, maar verander de kleur van de auto naar rood, en zorg dat de sneeuw er echt uitziet zonder dat de bomen in de verte vervormen."

De meeste huidige AI-foto-editors zijn als een onervaren stagiair. Als je ze zo'n opdracht geeft, doen ze vaak het volgende:

  1. Ze veranderen de auto in rood, maar vergeten de sneeuw.
  2. Ze maken de sneeuw perfect, maar veranderen per ongeluk ook de vorm van de auto.
  3. Als je zegt: "Nee, de auto moet oranje zijn," proberen ze het opnieuw, maar dan is de achtergrond al een beetje wazig geworden. Elke keer dat ze iets aanpassen, wordt de hele foto een beetje minder scherp, alsof je een kopie van een kopie maakt.

Agent Banana is de meester-architect die dit probleem oplost. Het is een slim systeem dat niet alleen "tekst naar beeld" doet, maar echt nadenkt over wat je wilt, net als een professionele fotobewerker.

Hier is hoe het werkt, vertaald naar alledaagse taal:

1. De "Drie-Lagen" Methode (In plaats van alles opnieuw te schilderen)

Stel je voor dat je een schilderij hebt. Een gewone AI pakt het hele doek, veegt het af en schildert het opnieuw, inclusief de achtergrond die je niet wilde veranderen. Dat is inefficiënt en maakt het schilderij wazig.

Agent Banana werkt anders. Het gebruikt een lasermethode:

  • Het knipt precies het stukje uit waar je aan wilt werken (bijvoorbeeld alleen de auto).
  • Het schildert alleen dat stukje opnieuw op een los vel papier (een "laag").
  • Het plakt dat nieuwe stukje perfect terug in het originele schilderij.

Dit betekent dat de rest van de foto (de bomen, de lucht, de sneeuw) 100% onveranderd en haarscherp blijft, zelfs als je de foto in 4K-kwaliteit (zeer hoog detail) bewerkt.

2. De "Slimme Geheugenbank" (Geen vergeten instructies)

Bij lange sessies met veel stappen (eerst de auto, dan de sneeuw, dan de lucht) raken gewone AI's vaak de draad kwijt. Ze vergeten wat ze in stap 1 hebben gedaan, of ze verwarren stap 2 met stap 1.

Agent Banana heeft een slim geheugen (noemen ze "Context Folding").

  • Het houdt niet elke losse gedachte of elke mislukte poging in het hoofd.
  • In plaats daarvan vat het de geschiedenis samen in een strakke "stappenlijst".
  • Het onthoudt: "We hebben de auto rood gemaakt, en de sneeuw is wit." Het vergeet niet wat er al is gebeurd, zelfs niet na 10 verschillende stappen. Zo blijft het resultaat consistent.

3. De "Controleur" (Niet te veel doen)

Een groot probleem bij AI is dat ze soms te veel doen. Je vraagt om een rode auto, en de AI maakt ook de weg rood en de lucht roze.

Agent Banana heeft een eigen kwaliteitscontroleur ingebouwd.

  • Voordat het het resultaat aan jou laat zien, kijkt het zelf kritisch: "Heb ik alleen de auto veranderd? Is de rest nog hetzelfde?"
  • Als het ziet dat het per ongeluk de achtergrond heeft aangetast, zegt het: "Nee, dat is niet goed," en doet het stukje opnieuw.
  • Dit zorgt ervoor dat het systeem niet "over-edit" (te veel aanpast) en precies doet wat je bedoelt.

Waarom is dit belangrijk? (De HDD-Bench)

Om te bewijzen dat dit werkt, hebben de makers een nieuwe test ontwikkeld, genaamd HDD-Bench.

  • Oude tests waren als een quiz met één vraag: "Maak een hond."
  • Deze nieuwe test is als een complexe opdracht in een professionele studio: "Verander de hond in een kat, maak de achtergrond donkerder, en zorg dat de schaduw klopt, en doe dit in 3 stappen."
  • De test kijkt niet alleen naar het eindresultaat, maar ook naar of de tussenstappen logisch waren en of de foto niet wazig werd door het herhaaldelijk aanpassen.

Samenvatting

Agent Banana is een slimme, nadenkende AI die foto's bewerkt alsof het een professionele editor is. Het:

  1. Werkt in ultra-hoge kwaliteit (4K) zonder dat de foto wazig wordt.
  2. Verandert alleen wat je vraagt, en laat de rest perfect intact.
  3. Onthoudt elke stap van een lange conversatie, zodat je niet hoeft te beginnen bij nul als je iets wilt aanpassen.

Het is de stap van "een AI die een beetje kan tekenen" naar "een AI die een professionele fotobewerker kan vervangen."

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →