cs.CV Arbeiten | Gist.Science

PhysDrape: Learning Explicit Forces and Collision Constraints for Physically Realistic Garment Draping

PhysDrape ist ein hybrider neural-physikalischer Solver, der durch die Integration eines lernbaren Kraftsolvers und eines differentierbaren Projektionsmechanismus für Kollisionen eine physikalisch realistische und kollisionsfreie Stoffdrapierung in Echtzeit ermöglicht.

Minghai Chen, Mingyuan Liu, Ning Ma, Jianqing Li, Yuxiang Huan2026-03-10💻 cs

Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

Die Arbeit stellt FlowAdapt vor, einen parameter-effizienten Rahmen für die Domänenanpassung in der kooperativen V2X-Wahrnehmung, der auf Optimal-Transport-Theorie basiert und durch wasserstein-basierte Stichprobenziehung sowie progressive Wissensübertragung eine State-of-the-Art-Leistung mit nur 1 % trainierbarer Parameter erzielt.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

Die Arbeit stellt SToRM vor, ein neuartiges Framework zur überwachierten Token-Reduktion in multimodalen Large Language Models, das die Rechenkosten für end-zu-end autonomes Fahren um bis zu das 30-fache senkt, ohne dabei die Leistung im Vergleich zur Verarbeitung aller visuellen Token zu beeinträchtigen.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

Die Arbeit stellt 3DMedAgent vor, einen einheitlichen Agenten, der es multimodalen Großsprachmodellen ermöglicht, komplexe 3D-CT-Analysen durch die Koordination heterogener Werkzeuge und ein langfristiges strukturiertes Gedächtnis ohne spezifische 3D-Feinabstimmung erfolgreich durchzuführen.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Die Arbeit demonstriert, dass Architekturen, die äquivariante Operatoren in einem latenten Raum aus Beispielen lernen, die Generalisierung auf bisher nicht gesehene Transformationen bei der Objekterkennung verbessern können, weist jedoch gleichzeitig Herausforderungen beim Skalieren auf komplexere Datensätze auf.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

Die Arbeit stellt OVerSeeC vor, ein modularer Zero-Shot-Rahmen, der große Sprachmodelle und offene Vokabular-Segmentierung kombiniert, um aus Satellitenbildern und natürlichen Sprachanweisungen anpassungsfähige globale Kostenkarten für die autonome Navigation zu generieren.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

Die Autoren stellen ein neues Forschungssetting namens Open-Vocabulary Domain Generalization in Semantic Segmentation (OVDG-SS) vor, das durch die Einführung eines ersten Benchmarks für autonomes Fahren und die Entwicklung der Methode S2-Corr zur Korrektur von Text-Bild-Korrelationen die Robustheit von Segmentierungsmodellen gegenüber sowohl unbekannten Domänen als auch unbekannten Kategorien in urbanen Szenarien sicherstellt.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

Universal 3D Shape Matching via Coarse-to-Fine Language Guidance

Das Paper stellt UniMatch vor, ein semantikbewusstes Framework, das durch eine zweistufige, grob-zu-feine Methode mit Sprachunterstützung und kontrastivem Lernen dichte semantische Korrespondenzen zwischen stark nicht-isometrischen 3D-Objekten beliebiger Kategorien ermöglicht.

Qinfeng Xiao, Guofeng Mei, Bo Yang, Liying Zhang, Jian Zhang, Kit-lun Yick2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

Das Paper stellt InfScene-SR vor, einen diffusionsbasierten Ansatz für die Bild-Super-Resolution beliebiger Größe, der durch eine neuartige, räumlich entkoppelte Varianzkorrektur (SDVC) nahtlose, hochauflösende Gigapixel-Bilder ohne Grenzkantenartefakte erzeugt und dabei den Speicherbedarf drastisch reduziert.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

Object-Scene-Camera Decomposition and Recomposition for Data-Efficient Monocular 3D Object Detection

Dieser Beitrag stellt eine Online-Methode zur Zerlegung und Neuzusammensetzung von Objekten, Szenen und Kameraposen vor, um die Datenabhängigkeit monokularer 3D-Objekterkennung zu verringern und durch die Erzeugung vielfältigerer Trainingsdaten die Leistung verschiedener Modelle auf KITTI- und Waymo-Datensätzen zu steigern.

Zhaonian Kuang, Rui Ding, Meng Yang + 2 more2026-03-10💻 cs

Cycle-Consistent Tuning for Layered Image Decomposition

Diese Arbeit stellt einen in-Kontext-Framework zur Bildzerlegung vor, der durch Feinabstimmung von Diffusionsmodellen mit LoRA und eine zykluskonsistente Trainingsstrategie komplexe visuelle Schichten, wie etwa Logos von ihren Hintergründen, präzise und robust trennt.

Zheng Gu, Min Lu, Zhida Sun, Dani Lischinski, Daniel Cohen-Or, Hui Huang2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

Der Artikel stellt einen leichten, trainingsfreien und plug-and-play-fähigen Rahmen vor, der durch die iterative Überwachung von CoT-Reasoning-Schritten mit visuellen Beweisen und die dynamische Erweiterung eines Textbeweispools visuelle Halluzinationen in großen Vision-Sprachmodellen effektiv reduziert und die Genauigkeit ohne zusätzliche Modelltrainings verbessert.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

Tokenizing Semantic Segmentation with RLE

Diese Arbeit stellt einen einheitlichen Ansatz zur semantischen und panoptischen Segmentierung von Bildern und Videos vor, bei dem Masken durch Laufkodierung (RLE) diskretisiert und als Token-Sequenzen mittels eines modifizierten Pix2Seq-Modells autoregressiv generiert werden.

Abhineet Singh, Justin Rozeboom, Nilanjan Ray2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

Das Paper stellt WISER vor, ein training-freies Framework für das Zero-Shot Composed Image Retrieval, das durch eine adaptive Fusion von Text- und Bild-basierten Suchpfaden sowie einen verifizierenden Verfeinerungsprozess die Stärken beider Ansätze kombiniert und damit den aktuellen Stand der Technik deutlich übertrifft.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

Die Arbeit stellt PackUV vor, eine neuartige 4D-Gaussian-Repräsentation, die durch eine temporalkonsistente Anpassung in strukturierte UV-Atlanten eine effiziente Kompression und Kompatibilität mit Standard-Video-Codecs ermöglicht, während sie gleichzeitig die Rekonstruktionsqualität bei langen Sequenzen und großen Bewegungen verbessert.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Annotation-Free Visual Reasoning for High-Resolution Large Multimodal Models via Reinforcement Learning

Die Arbeit stellt HART vor, ein annotierungsfreies Framework, das Large Multimodal Models durch eine verstärkende Lernmethode namens AP-GRPO befähigt, ohne externe visuelle Labels hochauflösende Eingaben effizient zu analysieren und präzise Schlüsselregionen für das visuelle Reasoning zu lokalisieren.

Jiacheng Yang, Anqi Chen, Yunkai Dang, Qi Fan, Cong Wang, Wenbin Li, Feng Miao, Yang Gao2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

Die Arbeit stellt Infinite Self-Attention (InfSA) und dessen lineare Variante Linear-InfSA vor, die durch eine spektrale Umformulierung als Neumann-Reihe über Token-Graphen den quadratischen Rechenaufwand von Softmax-Attention umgehen, skalierbare Vision-Transformer mit bis zu 332.000 Tokens ermöglichen und dabei auf ImageNet-1K eine um 3,2 Prozentpunkte höhere Genauigkeit sowie eine 13-fach bessere Energieeffizienz im Vergleich zu herkömmlichen Modellen erreichen.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

Das Paper stellt WildActor vor, ein Framework zur Erzeugung von Videos mit konsistenten menschlichen Identitäten unter beliebigen Blickwinkeln und Bewegungen, das auf dem großen Datensatz Actor-18M basiert und durch einen asymmetrischen Identitätserhaltungs-Attention-Mechanismus sowie eine viewpoint-adaptive Monte-Carlo-Sampling-Strategie bestehende Methoden in Bezug auf Ganzkörper-Konsistenz übertrifft.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs

Position: Evaluation of Visual Processing Should Be Human-Centered, Not Metric-Centered

Dieses Positionspapier fordert, dass die Evaluierung moderner visueller Verarbeitungssysteme weg von einer rein metrikzentrierten hin zu einer menschenzentrierten, kontextbewussten und feinkörnigen Bewertung orientiert werden sollte, um die Kluft zwischen objektiven Qualitätsmaßen und menschlicher Wahrnehmung zu überbrücken.

Jinfan Hu, Fanghua Yu, Zhiyuan You, Xiang Yin, Hongyu An, Xinqi Lin, Chao Dong, Jinjin Gu2026-03-10💻 cs

DeAR: Fine-Grained VLM Adaptation by Decomposing Attention Head Roles

Die Arbeit stellt DeAR vor, einen Rahmen zur feinkörnigen Anpassung von Vision-Language-Modellen, der durch die Zerlegung der Rollen von Aufmerksamkeitsköpfen und die Einführung einer rollenbasierten Maskierung die Balance zwischen Aufgabenanpassung und Erhaltung der Null-Shot-Generalisierung verbessert.

Yiming Ma, Hongkun Yang, Lionel Z. Wang, Bin Chen, Weizhi Xian, Jianzhi Teng2026-03-10💻 cs

← Zurück Weiter →