HeroGS: Hierarchical Guidance for Robust 3D Gaussian Splatting under Sparse Views

Das Paper stellt HeroGS vor, ein einheitliches Framework mit hierarchischer Führung auf Bild-, Feature- und Parameter-Ebene, das durch die Umwandlung spärlicher Supervision in pseudo-dichte Anleitung sowie adaptive Verdichtung und geometrische Konsistenz robuste 3D-Gaussian-Splatting-Rekonstruktionen auch unter Bedingungen mit wenigen Ansichten ermöglicht.

Jiashu Li, Xumeng Han, Zhaoyang Wei + 5 more2026-03-04💻 cs

Continuous Exposure-Time Modeling for Realistic Atmospheric Turbulence Synthesis

Die Autoren stellen mit ET-Turb einen groß angelegten synthetischen Datensatz vor, der durch die Einführung einer kontinuierlichen belichtungszeitabhängigen Modulationsübertragungsfunktion (ET-MTF) realistischere atmosphärische Turbulenz-Effekte modelliert und damit die Generalisierungsfähigkeit von Bildwiederherstellungsmodellen im Vergleich zu bestehenden Ansätzen signifikant verbessert.

Junwei Zeng, Dong Liang, Sheng-Jun Huang + 2 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

Die Arbeit stellt InterCoG vor, ein neuartiges Text-Bild-Rahmenwerk mit verflochtener Chain-of-Grounding-Reasoning, das durch eine sequenzielle Kombination aus textbasiertem Positionsverständnis, visueller Verankerung und Beschreibungsumformulierung präzise Bildbearbeitungen in komplexen Szenen ermöglicht, unterstützt durch das neue GroundEdit-45K-Datenset und entsprechende Evaluierungsmethoden.

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

Das Paper stellt Nano-EmoX, ein kompaktes multimodales Sprachmodell mit 2,2 Milliarden Parametern, und das Curriculum-Training P2E vor, die gemeinsam eine kognitiv inspirierte Hierarchie nutzen, um von der Wahrnehmung bis zur Empathie sechs affektive Aufgaben in einem einheitlichen Rahmen zu vereinen und dabei state-of-the-art-Leistung bei hoher Effizienz zu erzielen.

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

CamDirector: Towards Long-Term Coherent Video Trajectory Editing

Die Arbeit stellt CamDirector vor, ein neues Framework für die Bearbeitung von Videotrajektorien, das durch eine hybride Verwarpung mit einem Welt-Cache und ein history-gesteuertes autoregressives Diffusionsmodell eine präzise Kamerasteuerung und langfristige zeitliche Kohärenz ermöglicht, wobei es auf dem neuen iPhone-PTZ-Benchmark einen neuen State-of-the-Art mit weniger Parametern erreicht.

Zhihao Shi, Kejia Yin, Weilin Wan + 5 more2026-03-04💻 cs

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

Das Paper stellt HAMMER vor, ein Framework, das multimodale große Sprachmodelle (MLLMs) nutzt, um durch die Aggregation von Interaktionsabsichten und eine hierarchische cross-modale Integration eine intentiongetriebene 3D-Affordanz-Verankerung zu ermöglichen, die ohne explizite Attributbeschreibungen oder 2D-Segmentierer auskommt und in Experimenten überlegene Ergebnisse liefert.

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Preconditioned Score and Flow Matching

Die vorgestellte Arbeit zeigt, dass eine schlecht konditionierte Kovarianz der Zwischenverteilungen bei Flow Matching und Score-basierten Diffusionsmodellen zu einem suboptimalen Trainingsplateau führt, und schlägt reversible, label-konditionierte Vorkonditionierungsabbildungen vor, die die Geometrie dieser Verteilungen verbessern, um das Lernen in unterdrückten Richtungen wiederherzustellen und suboptimale Plateaus zu vermeiden.

Shadab Ahamed, Eshed Gal, Simon Ghyselincks + 3 more2026-03-04🤖 cs.AI