WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Die Arbeit stellt WorldCache vor, ein Caching-Framework für Diffusions-basierte Weltmodelle, das durch kurvengeleitete, heterogene Token-Vorhersage und chaotisch priorisiertes adaptives Überspringen die Inferenzgeschwindigkeit um das 3,7-fache steigert, ohne dabei die Rollout-Qualität zu beeinträchtigen.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

Das Paper stellt K-MaT vor, einen Prompt-Learning-Ansatz, der durch die Verankerung von Prompts an klinische Texte und die Ausrichtung von Manifold-Räumen mittels optimalen Transports die Übertragung von großen biomedizinischen Vision-Language-Modellen auf niedrigwertige Bildgebungsmodalitäten ohne Trainingsdaten ermöglicht und dabei den Zustand der Kunst erreicht.

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

Das Paper stellt den Dynamic Chunking Diffusion Transformer (DC-DiT) vor, der durch einen lernbasierten Encoder-Router-Decoder adaptiv und datenabhängig die Anzahl der Tokens je nach Bildinhalt und Diffusionszeitpunkt optimiert, um die Recheneffizienz zu steigern und gleichzeitig die Bildqualität im Vergleich zu herkömmlichen DiT-Modellen zu verbessern.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

Das Paper stellt LATO vor, eine neuartige, topologieerhaltende latente Darstellung, die durch einen zweistufigen Flow-Matching-Prozess und ein spezialisiertes Voxel-VAE-System effizient und skalierbar explizite 3D-Meshes mit komplexer Geometrie und korrekter Topologie generiert, ohne auf Isosurface-Extraktion oder heuristisches Meshing angewiesen zu sein.

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

Diese Studie stellt computergestützte Methoden vor, die mithilfe eines Dual-Kamera-Systems (BIODISCOVER) und maschinellen Lernverfahren die Trockengewichtsschätzung von Wirbellosen allein aus Bildern ermöglichen und so eine zerstörungsfreie, skalierbare Biodiversitätsüberwachung mit einer medianen Fehlerquote von 10–20 % unterstützen.

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

Die Arbeit stellt OralGPT-Plus vor, ein agentices Vision-Language-Modell, das durch ein reinspektionsbasiertes Reinforcement-Learning-Framework und den neuen Datensatz DentalProbe eine iterative, symmetriebewusste Analyse von Panoramaröntgenbildern ermöglicht und damit die klinische Zuverlässigkeit in der zahnmedizinischen Diagnostik verbessert.

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

Die Studie stellt CHMv2 vor, eine globale, metergenaue Baumhöhenkarte, die mithilfe des DINOv3-Modells und optischer Satellitendaten erstellt wurde und im Vergleich zu bestehenden Produkten eine deutlich höhere Genauigkeit, geringere Verzerrungen in hohen Wäldern sowie eine bessere Erfassung feiner Strukturdetails bietet.

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

Die Arbeit stellt REACT++ vor, ein neuartiges Echtzeit-Modell für die Generierung von Szenengraphen, das durch effiziente Merkmalsextraktion und Cross-Attention im Prototypenraum eine überlegene Balance zwischen Inferenzgeschwindigkeit, Beziehungsvorhersagegenauigkeit und Objekterkennung erreicht und dabei den Vorgänger REACT um 20 % beschleunigt sowie die Genauigkeit um 10 % steigert.

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

Die vorgestellte Arbeit stellt ein menschengeführtes Framework vor, das automatische Löser mit interaktiver Benutzersteuerung kombiniert, um die komplexe und skalierbare Rekonstruktion von zerfallenen kulturellen Erbstücken aus tausenden Fragmenten effizient und präzise zu bewerkstelligen.

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Die Studie stellt CLoPA vor, eine kontinuierliche Anpassungsstrategie, die durch das Feinabstimmen eines kleinen Teils der Parameter des nnInteractive-Modells auf annotierten Daten die Segmentierungsleistung in der medizinischen Bildgebung schnell auf Expertenniveau hebt, ohne neue Parameter oder Änderungen am Inferenzprozess zu erfordern.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Das Paper stellt Pinterest Canvas vor, ein groß angelegtes Bildgenerierungssystem, das auf einem vielseitigen Basis-Modell aufbaut und durch schnelle, aufgabenspezifische Feinabstimmungen spezialisierte Modelle für Bildbearbeitung und -verbesserung erstellt, die in A/B-Tests signifikant höhere Nutzerinteraktionen und eine bessere Leistung als Drittanbietermodelle erzielen.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs