The Dresden Dataset for 4D Reconstruction of Non-Rigid Abdominal Surgical Scenes

Das Dresdner D4D-Dataset bietet eine umfassende Benchmark aus über 300.000 Bildern und 369 Punktwolken von 98 laparoskopischen Aufnahmen an Schweinekadavern, die durch gepaarte Endoskopie- und Strukturiertlicht-Daten eine quantitative Evaluierung von nicht-rigiden 4D-Rekonstruktions- und SLAM-Methoden in realistischen chirurgischen Szenarien ermöglicht.

Reuben Docea, Rayan Younis, Yonghao Long + 10 more2026-03-04💻 cs

Any Resolution Any Geometry: From Multi-View To Multi-Patch

Die Arbeit stellt den Ultra Resolution Geometry Transformer (URGT) vor, ein einheitliches Multi-Patch-Transformer-Modell, das durch die Verarbeitung hochauflösender Bilddaten in Patches mit globaler Aufmerksamkeitsmechanik und einer GridMix-Sampling-Strategie präzise Tiefen- und Normalenschätzungen ermöglicht und dabei den aktuellen Stand der Technik auf dem UnrealStereo4K-Datensatz übertrifft.

Wenqing Cui, Zhenyu Li, Mykola Lavreniuk + 4 more2026-03-04💻 cs

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Das Paper stellt TikZilla vor, ein Modell-Familie auf Basis kleiner Qwen-LLMs, die durch die Nutzung eines hochwertigen, vierfach vergrößerten Datensatzes (DaTikZ-V4) und eines zweistufigen Trainings mit überwachtem Fine-Tuning sowie bestärkendem Lernen (RL) mit semantischen Bild-Rückmeldungen die Text-zu-TikZ-Generierung so weit verbessern, dass sie GPT-4o übertrifft und mit GPT-5 gleichzieht.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

AWDiff: An a trous wavelet diffusion model for lung ultrasound image synthesis

Die Arbeit stellt AWDiff vor, ein auf Diffusionsmodellen basierendes Framework zur Synthese von Lungensonografie-Bildern, das durch die Integration der a trous-Wavelet-Transformation und semantische Konditionierung mit BioMedCLIP feine diagnostische Strukturen erhält und gleichzeitig die Datenknappheit für maschinelles Lernen überwindet.

Maryam Heidari, Nantheera Anantrasirichai, Steven Walker + 2 more2026-03-04💻 cs

COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design

Die Arbeit stellt COP-GEN vor, einen latenten Diffusions-Transformer, der die inhärente Mehrdeutigkeit in der Erdbeobachtung durch die Modellierung multimodaler Daten als stochastische Verteilungen adressiert und so eine flexible, deterministische Zusammenbrüche vermeidende Generierung und Übersetzung zwischen verschiedenen Sensormodalitäten ermöglicht.

Miguel Espinosa, Eva Gmelich Meijling, Valerio Marsocci + 2 more2026-03-04💻 cs

UniG2U-Bench: Do Unified Models Advance Multimodal Understanding?

Die Studie stellt mit UniG2U-Bench einen umfassenden Benchmark vor, der zeigt, dass zwar generative Fähigkeiten in bestimmten Bereichen wie der räumlichen Intelligenz das multimodale Verständnis verbessern, Unified Models jedoch insgesamt oft hinter ihren reinen Vision-Language-Modellen zurückbleiben und neue Trainingsdaten sowie Paradigmen benötigen, um ihr volles Potenzial zu entfalten.

Zimo Wen, Boxiu Li, Wanbo Zhang + 11 more2026-03-04🤖 cs.AI

LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

LoGeR ist ein neuartiges Feedforward-Architektur-Modell, das durch einen hybriden Speichermechanismus aus parametrischem Test-Time-Training und nicht-parametrischer Sliding-Window-Attention eine hochpräzise, global konsistente 3D-Rekonstruktion für extrem lange Videos ohne Nachoptimierung ermöglicht und dabei den bisherigen Stand der Technik deutlich übertrifft.

Junyi Zhang, Charles Herrmann, Junhwa Hur + 5 more2026-03-04🤖 cs.LG