Vision-Zero: Scalable VLM Self-Improvement via Strategic Gamified Self-Play

Das Paper stellt Vision-Zero vor, ein skalierbares, label-freies Multi-Agenten-Self-Play-Framework, das Vision-Language-Modelle durch strategische Spiele mit beliebigen Bildern und einen neuartigen iterativen Trainingsalgorithmus (Iterative-SPO) verbessert, um ohne menschliche Annotationen state-of-the-art Ergebnisse in visuellen Verstehens- und Reasoning-Aufgaben zu erzielen.

Qinsi Wang, Bo Liu, Tianyi Zhou + 6 more2026-03-05🤖 cs.AI

Factuality Matters: When Image Generation and Editing Meet Structured Visuals

Die Arbeit stellt eine umfassende Untersuchung zur Generierung und Bearbeitung strukturierter Visualisierungen vor, die durch ein neuartiges 1,3-Millionen-Datensatz-Training, ein einheitliches Modell mit FLUX.1-Kontext und Reasoning-Fähigkeiten sowie den neuen Benchmark StructBench die Lücke in der faktischen Genauigkeit bestehender Bildgenerierungsmodelle schließt.

Le Zhuo, Songhao Han, Yuandong Pu + 8 more2026-03-05💻 cs

TIGeR: Tool-Integrated Geometric Reasoning in Vision-Language Models for Robotics

Das Paper stellt TIGeR vor, ein Framework, das Vision-Language-Modelle durch die Generierung und Ausführung präziser geometrischer Berechnungen mit externen Tools von reinen Schätzern zu rechnerischen Systemen weiterentwickelt und so durch ein neues Datenset sowie ein zweistufiges Trainingsverfahren Zentimeter-Genauigkeit für robotische Manipulationsaufgaben erreicht.

Yi Han, Enshen Zhou, Shanyu Rong + 6 more2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

Die Arbeit stellt COGS vor, ein dateneffizientes Framework, das durch die Zerlegung von Seed-Fragen in primitive Faktoren und deren systematische Neukombination mit synthetischen Bildern große Mengen an Trainingsdaten für das visuelle Schlussfolgern von Multi-modalen Large Language Models generiert und so deren Leistungsfähigkeit insbesondere bei komplexen, zusammengesetzten Aufgaben erheblich steigert.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

Die Arbeit stellt einen neuartigen Rahmen zur semantischen Segmentierung unter extremen Bedingungen vor, der durch eine edge-bewusste Re-Codierung und Unsicherheitsoptimierung die heterogenen Merkmale von Event- und RGB-Daten robust fusioniert, um Informationsverluste bei schlechten Lichtverhältnissen oder starker Kamerabewegung zu überwinden.

Nan Bao, Yifan Zhao, Lin Zhu + 1 more2026-03-05💻 cs