cs.CV Arbeiten | Gist.Science

FusionRegister: Every Infrared and Visible Image Fusion Deserves Registration

Die Arbeit stellt FusionRegister vor, eine allgemeine Methode zur Registrierung von Infrarot- und sichtbaren Bildern, die durch visuelle Priors und das Lernen von Fehlausrichtungsrepräsentationen eine effiziente, robuste und nahtlos integrierbare Bildfusion ermöglicht, ohne auf umfangreiche Vorregistrierungen angewiesen zu sein.

Congcong Bian, Haolong Ma, Hui Li, Zhongwei Shen, Xiaoqing Luo, Xiaoning Song, Xiao-Jun Wu2026-03-10💻 cs

UniUncer: Unified Dynamic Static Uncertainty for End to End Driving

Die Arbeit stellt UniUncer vor, ein leichtgewichtiges, einheitliches Unsicherheitsframework für End-to-End-Fahrsysteme, das erstmals Unsicherheiten sowohl für statische als auch dynamische Szenenelemente gemeinsam schätzt und durch adaptive Mechanismen in die Planung integriert, um die Zuverlässigkeit und Leistung in komplexen Verkehrssituationen signifikant zu verbessern.

Yu Gao, Jijun Wang, Zongzheng Zhang, Anqing Jiang, Yiru Wang, Yuwen Heng, Shuo Wang, Hao Sun, Zhangfeng Hu, Hao Zhao2026-03-10💻 cs

FrameVGGT: Frame Evidence Rolling Memory for streaming VGGT

Die Arbeit stellt FrameVGGT vor, einen framebasierten Streaming-Ansatz für die 3D-Wahrnehmung, der durch die Zusammenfassung von KV-Beiträgen ganzer Bilder zu kompakten Prototypen und die Verwaltung eines festen Speichers für komplementäre Frames eine stabile Geometrie bei begrenztem Speicherbedarf über lange Videosequenzen hinweg ermöglicht.

Zhisong Xu, Takeshi Oishi2026-03-10💻 cs

RoboPCA: Pose-centered Affordance Learning from Human Demonstrations for Robot Manipulation

Die Arbeit stellt RoboPCA vor, ein pose-zentriertes Framework zur gemeinsamen Vorhersage von Kontaktregionen und -orientierungen für die Robotermanipulation, das durch die automatische Datenerfassungsmethode Human2Afford aus menschlichen Demonstrationen lernt und dabei Konsistenzprobleme bestehender Ansätze überwindet.

Zhanqi Xiao, Ruiping Wang, Xilin Chen2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

Die Arbeit stellt CDA-VSR vor, einen effizienten Online-Video-Super-Resolution-Ansatz, der Komprimierungsdaten wie Bewegungsvektoren und Restkarten nutzt, um die Rechenleistung zu optimieren und gleichzeitig eine höhere Bildqualität bei Echtzeitverarbeitung zu erreichen.

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

Learning Context-Adaptive Motion Priors for Masked Motion Diffusion Models with Efficient Kinematic Attention Aggregation

Die Arbeit stellt das Masked Motion Diffusion Model (MMDM) vor, ein auf Diffusionsmodellen basierendes Framework mit einem Kinematic Attention Aggregation-Mechanismus, das durch das Erlernen kontextadaptiver Bewegungspriors unvollständige oder verrauschte Bewegungsdaten für Aufgaben wie Rekonstruktion, Vervollständigung und Interpolation robust rekonstruiert.

Junkun Jiang, Jie Chen, Ho Yin Au, Jingyu Xiang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

Die Arbeit stellt TDM-R1 vor, ein neuartiges Reinforcement-Learning-Verfahren, das Few-Step-Diffusionsmodelle durch die Entkopplung von Surrogat-Reward-Lernen und Generator-Training sowie die Integration nicht-differenzierbarer Belohnungssignale effizient verbessert und dabei state-of-the-art-Ergebnisse in verschiedenen Anwendungsbereichen erzielt.

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

PARSE: Part-Aware Relational Spatial Modeling

Die Arbeit stellt PARSE vor, ein Framework, das durch die explizite Modellierung von Interaktionen zwischen Objektteilen und die Einführung des Part-centric Assembly Graph (PAG) sowie des zugehörigen PARSE-10K-Datensatzes die räumliche Intelligenz verbessert und physikalisch konsistente 3D-Szenen ermöglicht.

Yinuo Bai, Peijun Xu, Kuixiang Shao, Yuyang Jiao, Jingxuan Zhang, Kaixin Yao, Jiayuan Gu, Jingyi Yu2026-03-10💻 cs

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Die Arbeit stellt 3ViewSense vor, ein Framework, das die räumliche Intelligenz von Vision-Language-Modellen durch eine auf orthografischen Ansichten basierende „Simulieren-und-Schließen"-Methode schließt, um die Lücke bei der Konstruktion kohärenter 3D-Mentalmodelle aus 2D-Beobachtungen zu überwinden.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

AR2-4FV: Anchored Referring and Re-identification for Long-Term Grounding in Fixed-View Videos

Das Papier stellt AR2-4FV vor, ein System für die langfristige sprachgesteuerte Verfolgung in Videos mit fester Kameraperspektive, das durch die Nutzung eines statischen Hintergrund-Ankerbanks, eines Re-Entry-Priors und eines ReID-Gating-Mechanismus die Wiederauffindungsrate signifikant verbessert und die Latenz bei der Wiederauffindung von Objekten nach langen Unterbrechungen reduziert.

Teng Yan, Yihan Liu, Jiongxu Chen, Teng Wang, Jiaqi Li, Bingzhuo Zhong2026-03-10💻 cs

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

Das Paper stellt DECADE vor, ein unüberwachtes Diffusionsmodell, das durch die Einbeziehung zeitlicher Konsistenz Rb-82-dynamische kardiale PET-Bilder effektiv entrauscht und dabei sowohl die Bildqualität als auch die quantitative Genauigkeit der Durchblutungsparameter erhält, ohne auf gepaarte Trainingsdaten angewiesen zu sein.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

MedQ-Deg: A Multidimensional Benchmark for Evaluating MLLMs Across Medical Image Quality Degradations

Das Paper stellt MedQ-Deg vor, ein umfassendes Benchmark mit 24.894 Frage-Antwort-Paaren über 18 Degradationstypen und 7 Bildgebungsmodalitäten, das zeigt, dass multimodale Sprachmodelle im medizinischen Bereich bei Bildqualitätsverschlechterungen systematisch an Leistung verlieren und dabei trotz stark sinkender Genauigkeit unangemessen hochsicher bleiben.

Jiyao Liu, Junzhi Ning, Chenglong Ma, Wanying Qu, Jianghan Shen, Siqi Luo, Jinjie Wei, Jin Ye, Pengze Li, Tianbin Li, Jiashi Lin, Hongming Shan, Xinzhe Luo, Xiaohong Liu, Lihao Liu, Junjun He, Ningsheng Xu2026-03-10💻 cs

Geometric Knowledge-Assisted Federated Dual Knowledge Distillation Approach Towards Remote Sensing Satellite Imagery

Die vorgestellte Arbeit stellt GK-FedDKD vor, einen geometrischen wissensgestützten Ansatz für das federierte Lernen, der durch eine duale Wissensdistillation und die Aggregation globaler geometrischer Kovarianzinformationen die Herausforderungen der Datenheterogenität bei der Analyse von Fernerkundungsbildern bewältigt und dabei signifikant bessere Ergebnisse als bestehende Methoden erzielt.

Luyao Zou, Fei Pan, Jueying Li, Yan Kyaw Tun, Apurba Adhikary, Zhu Han, Hayoung Oh2026-03-10💻 cs

Parameterized Brushstroke Style Transfer

Dieses Paper stellt eine Methode zur Stilübertragung vor, die Bilder im Pinselstrich-Domain statt im RGB-Domain darstellt, um eine natürlichere und visuell überlegene Nachahmung künstlerischer Werke zu ermöglichen.

Uma Meleti, Siyu Huang2026-03-10💻 cs

OrdinalBench: A Benchmark Dataset for Diagnosing Generalization Limits in Ordinal Number Understanding of Vision-Language Models

Das Paper stellt OrdinalBench vor, einen diagnostischen Benchmark mit 39.000 Frage-Antwort-Paaren, der die Generalisierungsfähigkeiten von Vision-Language-Modellen beim Verständnis ordinaler Zahlen und der sequenziellen Schlussfolgerung durch standardisierte N-te-Objekt-Identifikationsaufgaben systematisch evaluiert und dabei signifikante Schwächen bei großen Ordinalzahlen und komplexen Pfaden aufzeigt.

Yusuke Tozaki, Hisashi Miyamori2026-03-10💻 cs

SGI: Structured 2D Gaussians for Efficient and Compact Large Image Representation

Die Arbeit stellt SGI vor, ein kompaktes Framework zur effizienten Darstellung hochauflösender Bilder, das durch eine seed-basierte Zerlegung in strukturierte lokale Räume und eine Multi-Scale-Anpassung sowohl die Kompression als auch die Konvergenzgeschwindigkeit im Vergleich zu bestehenden 2D-Gaussian-Methoden erheblich verbessert.

Zixuan Pan, Kaiyuan Tang, Jun Xia, Yifan Qin, Lin Gu, Chaoli Wang, Jianxu Chen, Yiyu Shi2026-03-10💻 cs

4DRC-OCC: Robust Semantic Occupancy Prediction Through Fusion of 4D Radar and Camera

Die Arbeit stellt 4DRC-OCC vor, eine robuste Methode zur semantischen 3D-Belegungsvorhersage für autonomes Fahren, die durch die Fusion von 4D-Radar- und Kameradaten sowie die Nutzung eines automatisch gelabelten Datensatzes auch unter schwierigen Wetter- und Lichtbedingungen zuverlässige Ergebnisse liefert.

David Ninfa, Andras Palffy, Holger Caesar2026-03-10💻 cs

MWM: Mobile World Models for Action-Conditioned Consistent Prediction

Die Arbeit stellt MWM vor, ein mobiles Weltmodell für die Navigation zu Bildzielen, das durch ein zweistufiges Training mit Action-Conditioned Consistency und eine konsistenzbewusste Destillation die Vorhersagegenauigkeit bei mehreren Schritten sowie die Planungseffizienz verbessert.

Han Yan, Zishang Xiang, Zeyu Zhang, Hao Tang2026-03-10💻 cs

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

Die Arbeit stellt HybridStitch vor, ein neues Paradigma für die Text-zu-Bild-Generierung, das durch eine hybride Verarbeitungsebene, welche große und kleine Diffusionsmodelle kombiniert, um komplexe Bildbereiche mit dem großen Modell zu verfeinern und einfache Bereiche mit dem kleinen Modell zu rendern, eine 1,83-fache Beschleunigung bei Stable Diffusion 3 erreicht.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Tracking Phenological Status and Ecological Interactions in a Hawaiian Cloud Forest Understory using Low-Cost Camera Traps and Visual Foundation Models

In dieser Studie werden kostengünstige Kamerafallen und visuelle Basis-Modelle eingesetzt, um im hawaiianischen Nebelwald detaillierte, zeitlich hochaufgelöste Daten zu Pflanzenphänologie und Flora-Fauna-Interaktionen zu erfassen, wodurch Trends sichtbar werden, die mit herkömmlichen Stichprobenmethoden nicht erkennbar sind.

Luke Meyers, Anirudh Potlapally, Yuyan Chen, Mike Long, Tanya Berger-Wolf, Hari Subramoni, Remi Megret, Daniel Rubenstein2026-03-10💻 cs

← Zurück Weiter →