cs.CV Arbeiten | Gist.Science

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

Die Arbeit stellt WorldCache vor, ein Caching-Framework für Diffusions-basierte Weltmodelle, das durch kurvengeleitete, heterogene Token-Vorhersage und chaotisch priorisiertes adaptives Überspringen die Inferenzgeschwindigkeit um das 3,7-fache steigert, ohne dabei die Rollout-Qualität zu beeinträchtigen.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

K-MaT: Knowledge-Anchored Manifold Transport for Cross-Modal Prompt Learning in Medical Imaging

Das Paper stellt K-MaT vor, einen Prompt-Learning-Ansatz, der durch die Verankerung von Prompts an klinische Texte und die Ausrichtung von Manifold-Räumen mittels optimalen Transports die Übertragung von großen biomedizinischen Vision-Language-Modellen auf niedrigwertige Bildgebungsmodalitäten ohne Trainingsdaten ermöglicht und dabei den Zustand der Kunst erreicht.

Jiajun Zeng, Shadi Albarqouni2026-03-09🤖 cs.AI

Dynamic Chunking Diffusion Transformer

Das Paper stellt den Dynamic Chunking Diffusion Transformer (DC-DiT) vor, der durch einen lernbasierten Encoder-Router-Decoder adaptiv und datenabhängig die Anzahl der Tokens je nach Bildinhalt und Diffusionszeitpunkt optimiert, um die Recheneffizienz zu steigern und gleichzeitig die Bildqualität im Vergleich zu herkömmlichen DiT-Modellen zu verbessern.

Akash Haridas, Utkarsh Saxena, Parsa Ashrafi Fashi, Mehdi Rezagholizadeh, Vikram Appia, Emad Barsoum2026-03-09🤖 cs.AI

LATO: 3D Mesh Flow Matching with Structured TOpology Preserving LAtents

Das Paper stellt LATO vor, eine neuartige, topologieerhaltende latente Darstellung, die durch einen zweistufigen Flow-Matching-Prozess und ein spezialisiertes Voxel-VAE-System effizient und skalierbar explizite 3D-Meshes mit komplexer Geometrie und korrekter Topologie generiert, ohne auf Isosurface-Extraktion oder heuristisches Meshing angewiesen zu sein.

Tianhao Zhao, Youjia Zhang, Hang Long, Jinshen Zhang, Wenbing Li, Yang Yang, Gongbo Zhang, Jozef Hladký, Matthias Nießner, Wei Yang2026-03-09💻 cs

Computer vision-based estimation of invertebrate biomass

Diese Studie stellt computergestützte Methoden vor, die mithilfe eines Dual-Kamera-Systems (BIODISCOVER) und maschinellen Lernverfahren die Trockengewichtsschätzung von Wirbellosen allein aus Bildern ermöglichen und so eine zerstörungsfreie, skalierbare Biodiversitätsüberwachung mit einer medianen Fehlerquote von 10–20 % unterstützen.

Mikko Impiö, Philipp M. Rehsen, Jarrett Blair, Cecilie Mielec, Arne J. Beermann, Florian Leese, Toke T. Høye, Jenni Raitoharju2026-03-09💻 cs

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis

Die Arbeit stellt OralGPT-Plus vor, ein agentices Vision-Language-Modell, das durch ein reinspektionsbasiertes Reinforcement-Learning-Framework und den neuen Datensatz DentalProbe eine iterative, symmetriebewusste Analyse von Panoramaröntgenbildern ermöglicht und damit die klinische Zuverlässigkeit in der zahnmedizinischen Diagnostik verbessert.

Yuxuan Fan, Jing Hao, Hong Chen, Jiahao Bao, Yihua Shao, Yuci Liang, Kuo Feng Hung, Hao Tang2026-03-09💻 cs

Rewis3d: Reconstruction Improves Weakly-Supervised Semantic Segmentation

Der vorgestellte Ansatz Rewis3d nutzt die Rekonstruktion von 3D-Szenen als zusätzlichen Lehrsignal, um schwach überwachtes semantisches Segmentieren auf 2D-Bildern mit nur wenigen Annotationen signifikant zu verbessern und dabei den aktuellen Stand der Technik zu übertreffen.

Jonas Ernst, Wolfgang Boettcher, Lukas Hoyer, Jan Eric Lenssen, Bernt Schiele2026-03-09💻 cs

MoEMambaMIL: Structure-Aware Selective State Space Modeling for Whole-Slide Image Analysis

Die Arbeit stellt MoEMambaMIL vor, ein strukturwahrnehmendes State-Space-Modell, das durch eine regionennestende selektive Abtastung und ein Mixture-of-Experts-Design die hierarchische Multi-Resolution-Struktur von Ganzschnittbildern effizient nutzt, um die Leistung bei der Analyse über neun verschiedene Aufgaben zu maximieren.

Dongqing Xie, Yonghuang Wu2026-03-09💻 cs

CHMv2: Improvements in Global Canopy Height Mapping using DINOv3

Die Studie stellt CHMv2 vor, eine globale, metergenaue Baumhöhenkarte, die mithilfe des DINOv3-Modells und optischer Satellitendaten erstellt wurde und im Vergleich zu bestehenden Produkten eine deutlich höhere Genauigkeit, geringere Verzerrungen in hohen Wäldern sowie eine bessere Erfassung feiner Strukturdetails bietet.

John Brandt, Seungeun Yi, Jamie Tolan, Xinyuan Li, Peter Potapov, Jessica Ertel, Justine Spore, Huy V. Vo, Michaël Ramamonjisoa, Patrick Labatut, Piotr Bojanowski, Camille Couprie2026-03-09💻 cs

Prompt Group-Aware Training for Robust Text-Guided Nuclei Segmentation

Die vorgestellte Arbeit führt ein prompt-gruppenbewusstes Trainingsframework ein, das die Empfindlichkeit von textgestützten Nukleus-Segmentierungsmodellen gegenüber Formulierungsunterschieden durch gruppenweise Konsistenzregularisierung und logit-basierte Constraints reduziert, ohne die Architektur oder Inferenz zu verändern.

Yonghuang Wu, Zhenyang Liang, Wenwen Zeng, Xuan Xie, Jinhua Yu2026-03-09🤖 cs.AI

REACT++: Efficient Cross-Attention for Real-Time Scene Graph Generation

Die Arbeit stellt REACT++ vor, ein neuartiges Echtzeit-Modell für die Generierung von Szenengraphen, das durch effiziente Merkmalsextraktion und Cross-Attention im Prototypenraum eine überlegene Balance zwischen Inferenzgeschwindigkeit, Beziehungsvorhersagegenauigkeit und Objekterkennung erreicht und dabei den Vorgänger REACT um 20 % beschleunigt sowie die Genauigkeit um 10 % steigert.

Maëlic Neau, Zoe Falomir2026-03-09💻 cs

Solving Jigsaw Puzzles in the Wild: Human-Guided Reconstruction of Cultural Heritage Fragments

Die vorgestellte Arbeit stellt ein menschengeführtes Framework vor, das automatische Löser mit interaktiver Benutzersteuerung kombiniert, um die komplexe und skalierbare Rekonstruktion von zerfallenen kulturellen Erbstücken aus tausenden Fragmenten effizient und präzise zu bewerkstelligen.

Omidreza Safaei, Sinem Aslan, Sebastiano Vascon, Luca Palmieri, Marina Khoroshiltseva, Marcello Pelillo2026-03-09💻 cs

DiffInf: Influence-Guided Diffusion for Supervision Alignment in Facial Attribute Learning

Die Arbeit stellt DiffInf vor, einen selbstbeeinflussungsgesteuerten Diffusionsrahmen, der inkonsistente Gesichtsattribut-Annotationen durch gezielte generative Bildkorrektur behebt, um die Überwachungsqualität zu verbessern und die Klassifikationsleistung zu steigern, ohne die Datengröße zu verringern.

Basudha Pal, Rama Chellappa2026-03-09💻 cs

Locating and Editing Figure-Ground Organization in Vision Transformers

Die Studie zeigt, dass Vision-Transformer wie BEiT die Gestalt-Präferenz für Konvexität erst in späteren Schichten auflösen, wobei der Aufmerksamkeitskopf L0H9 als früher Auslöser fungiert, dessen gezielte Dämpfung die visuelle Completion zugunsten konkaver Formen verändert.

Stefan Arnold, René Gröbner2026-03-09💻 cs

Physical Simulator In-the-Loop Video Generation

Die Arbeit stellt PSIVG vor, ein Framework, das einen physikalischen Simulator in den Diffusionsprozess integriert, um physikalisch konsistente und realistische Videogenerierung zu ermöglichen.

Lin Geng Foo, Mark He Huang, Alexandros Lattas, Stylianos Moschoglou, Thabo Beeler, Christian Theobalt2026-03-09🤖 cs.AI

Non-invasive Growth Monitoring of Small Freshwater Fish in Home Aquariums via Stereo Vision

Diese Arbeit stellt eine nicht-invasive stereo-visuelle Methode vor, die unter Berücksichtigung von Lichtbrechung und mittels eines YOLOv11-Pose-Netzwerks die Länge von kleinen Süßwasserfischen in Heimaquarien präzise schätzt.

Clemens Seibold, Anna Hilsmann, Peter Eisert2026-03-09💻 cs

CLoPA: Continual Low Parameter Adaptation of Interactive Segmentation for Medical Image Annotation

Die Studie stellt CLoPA vor, eine kontinuierliche Anpassungsstrategie, die durch das Feinabstimmen eines kleinen Teils der Parameter des nnInteractive-Modells auf annotierten Daten die Segmentierungsleistung in der medizinischen Bildgebung schnell auf Expertenniveau hebt, ohne neue Parameter oder Änderungen am Inferenzprozess zu erfordern.

Parhom Esmaeili, Chayanin Tangwiriyasakul, Eli Gibson, Sebastien Ourselin, M. Jorge Cardoso2026-03-09🤖 cs.AI

What if? Emulative Simulation with World Models for Situated Reasoning

Die Arbeit stellt WanderDream vor, den ersten groß angelegten Datensatz für die mentale Simulation von Erkundungsbewegungen, der es KI-Modellen ermöglicht, räumliche „Was-wäre-wenn"-Fragen zu beantworten, ohne physisch aktiv erkunden zu müssen.

Ruiping Liu, Yufan Chen, Yuheng Zhang, Junwei Zheng, Kunyu Peng, Chengzhi Wu, Chenguang Huang, Di Wen, Jiaming Zhang, Kailun Yang, Rainer Stiefelhagen2026-03-09💻 cs

CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Das Paper stellt CaTok vor, einen eindimensionalen kausalen Bild-Tokenizer mit einem MeanFlow-Decodierer und einer neuen Regularisierungsmethode REPA-A, der durch die Vermeidung nicht-kausaler Sequenzen und die Nutzung von Vision Foundation Models state-of-the-art-Ergebnisse bei der Bildrekonstruktion und der nächsten-Token-Vorhersage erzielt.

Yitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang2026-03-09💻 cs

Pinterest Canvas: Large-Scale Image Generation at Pinterest

Das Paper stellt Pinterest Canvas vor, ein groß angelegtes Bildgenerierungssystem, das auf einem vielseitigen Basis-Modell aufbaut und durch schnelle, aufgabenspezifische Feinabstimmungen spezialisierte Modelle für Bildbearbeitung und -verbesserung erstellt, die in A/B-Tests signifikant höhere Nutzerinteraktionen und eine bessere Leistung als Drittanbietermodelle erzielen.

Yu Wang, Eric Tzeng, Raymond Shiau, Jie Yang, Dmitry Kislyuk, Charles Rosenberg2026-03-09💻 cs

← Zurück Weiter →