cs.CV Arbeiten | Gist.Science

RangeSAM: On the Potential of Visual Foundation Models for Range-View represented LiDAR segmentation

Die Arbeit stellt RangeSAM vor, ein neuartiges Framework, das den Visual Foundation Model SAM2 durch spezifische architektonische Anpassungen an LiDAR-Reichweitenbilder anpasst, um eine effiziente und präzise 3D-Segmentierung für das autonome Fahren zu ermöglichen.

Paul Julius Kühn, Duc Anh Nguyen, Arjan Kuijper + 1 more2026-02-24💻 cs

Comparing and Integrating Different Notions of Representational Correspondence in Neural Systems

Diese Studie bewertet verschiedene Maße für die Repräsentationsähnlichkeit in neuronalen Systemen und zeigt, dass deren Integration mittels Similarity Network Fusion eine präzisere Trennung von Modellfamilien und eine klarere Rekonstruktion der hierarchischen Organisation des visuellen Kortex ermöglicht als einzelne Metriken.

Jialin Wu, Shreya Saha, Yiqing Bo + 1 more2026-02-24🤖 cs.AI

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

Das Paper stellt WAVE vor, ein bahnbrechendes, auf Multimodal-LLMs basierendes Embedding-Modell, das erstmals einen einheitlichen Raum für Text, Audio und Video schafft und durch eine hierarchische Fusionsstrategie sowie ein gemeinsames Multi-Task-Training state-of-the-art Ergebnisse in Aufgaben wie cross-modalem Retrieval und prompt-bewusster multimodaler Fragebeantwortung erzielt.

Changli Tang, Qinfan Xiao, Ke Mei + 3 more2026-02-24💻 cs

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

Die Arbeit stellt CMT (Consistency Mid-Training) vor, eine effiziente und stabile Methode, die durch eine neue mittlere Trainingsphase zwischen Vor- und Nachtraining Flow-Map-Modelle wie Consistency Models und Mean Flow mit deutlich reduziertem Rechenaufwand und Datenbedarf auf State-of-the-Art-Niveau bringt.

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji + 1 more2026-02-24🤖 cs.AI

AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

Die Arbeit stellt AlignTok vor, eine dreistufige Methode zur Ausrichtung vortrainierter visueller Encoder an Tokenizer für Diffusionsmodelle, die durch die Nutzung semantischer Strukturen von Foundation-Modellen im Vergleich zu herkömmlichen VAEs eine schnellere Konvergenz und überlegene Bildgenerierungsqualität ermöglicht.

Bowei Chen, Sai Bi, Hao Tan + 6 more2026-02-24💻 cs

SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition

Die Arbeit stellt SAGE vor, ein einheitliches Trainingsverfahren für die visuelle Ortserkennung, das durch eine adaptive Graph-Exploration, einen Soft-Probing-Modul zur lokalen Merkmalsverbesserung und ein dynamisches Hard-Sample-Mining auf einer DINOv2-Basis neue State-of-the-Art-Ergebnisse auf acht Benchmarks erzielt.

Shunpeng Chen, Changwei Wang, Rongtao Xu + 7 more2026-02-24💻 cs

Flower: A Flow-Matching Solver for Inverse Problems

Die Arbeit stellt Flower vor, einen Flow-Matching-basierten Solver für lineare inverse Probleme, der durch einen iterativen Prozess aus Vorhersage, Projektion und Zeitfortschreitung hochwertige Rekonstruktionen liefert und dabei theoretische Einblicke in die Approximation des bayesschen Posterior-Sampling bietet.

Mehrsa Pourya, Bassam El Rawas, Michael Unser2026-02-24🤖 cs.LG

VIRTUE: Visual-Interactive Text-Image Universal Embedder

Das Paper stellt VIRTUE vor, ein neuartiges multimodales Embedding-Modell, das durch die Integration von visuellen Interaktionen (wie Punkten oder Masken) die präzise Lokalisierung von Bildregionen ermöglicht und gleichzeitig auf einem neuen SCaR-Benchmark sowie in 36 universellen Aufgaben state-of-the-art Ergebnisse erzielt.

Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu + 2 more2026-02-24🤖 cs.AI

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Die Arbeit stellt RewardMap vor, ein mehrstufiges Reinforcement-Learning-Framework mit einem difficulty-basierten Belohnungsdesign, das das Problem der spärlichen Belohnungen bei der feingranularen visuellen Schlussfolgerung in multimodalen Sprachmodellen löst und durch die Einführung des ReasonMap-Plus-Datensatzes sowie eine gestufte Trainingsstrategie signifikante Leistungsverbesserungen erzielt.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

Die Arbeit stellt OBS-Diff vor, ein neuartiges, trainingsfreies One-Shot-Pruning-Framework, das durch eine an die iterativen Dynamiken von Diffusionsmodellen angepasste Hessian-Matrix und eine effiziente Gruppen-Pruning-Strategie eine präzise Kompression großer Text-zu-Bild-Modelle ermöglicht, ohne die visuelle Qualität signifikant zu beeinträchtigen.

Junhan Zhu, Hesong Wang, Mingluo Su + 2 more2026-02-24💻 cs

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

Die Arbeit stellt EDJE vor, einen effizienten diskriminativen Joint Encoder, der durch die Offline-Vorverarbeitung und Kompression von Bild-Tokens die Rechenkosten für das Reranking von Vision-Language-Daten drastisch senkt, ohne dabei die Retrieval-Leistung einzubüßen.

Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin2026-02-24🤖 cs.LG

LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

Das Paper stellt LinVideo vor, ein datenfreies Nachtrainierungsframework, das durch eine automatisierte Schichtauswahl und ein neues Verteilungsanpassungsziel (ADM) quadratische Aufmerksamkeitsmechanismen in Video-Diffusionsmodellen effizient durch lineare Aufmerksamkeitsmechanismen ersetzt und dabei eine Geschwindigkeitssteigerung von 1,25- bis 2-fach bei Erhalt der Generierungsqualität ermöglicht.

Yushi Huang, Xingtong Ge, Ruihao Gong + 2 more2026-02-24💻 cs

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Die Autoren stellen das State-Specific Model (SSM) vor, ein neuartiges Framework, das durch kritische Zustandskompression, das Lernen von Aktionsmustern und cross-temporale Interaktionen sowohl die Handlungserkennung als auch die -vorhersage in ungeschnittenen Videos verbessert und dabei die oft vernachlässigte Rolle der Agentenabsicht berücksichtigt.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Die Autoren stellen NEO vor, eine neuartige Familie nativer Vision-Language-Modelle, die auf grundlegenden Prinzipien basiert, um die Lücke zu modularen Architekturen zu schließen und durch eine einheitliche, skalierbare Struktur die gemeinsame Verarbeitung von Bild- und Textdaten effizienter zu gestalten.

Haiwen Diao, Mingxuan Li, Silei Wu + 6 more2026-02-24🤖 cs.AI

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Diese Arbeit untersucht systematisch den Einfluss der Prompt-Komplexität auf die Qualität, Vielfalt und Konsistenz von Text-zu-Bild-Modellen, wobei sie zeigt, dass komplexere Prompts zwar die Verteilungslücke zu realen Daten verringern, aber die Vielfalt und Konsistenz beeinträchtigen, während die Methode der Prompt-Erweiterung durch einen vortrainierten Sprachmodell als Likelihood-Schätzer die beste Leistung erzielt.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

Die Arbeit stellt MergeMix vor, ein einheitliches Augmentierungsparadigma, das durch eine effiziente Token-Merge-basierte Mixup-Strategie und eine optimierte Präferenzverlustfunktion die Stabilität von Supervised Fine-Tuning mit der Leistungsfähigkeit von Reinforcement Learning für die Ausrichtung multimodaler Großsprachenmodelle vereint.

Xin Jin, Siyuan Li, Siyong Jian + 2 more2026-02-24💻 cs

SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions

Die Studie stellt SYNAPSE-Net vor, ein einheitliches Framework mit läsionsbewusster hierarchischer Gating-Strategie, das durch multi-streame Kodierer und cross-modale Aufmerksamkeit eine robuste und generalisierbare Segmentierung heterogener Hirnläsionen aus multimodalen MRT-Daten ermöglicht.

Md. Mehedi Hassan, Shafqat Alam, Shahriar Ahmed Seam + 1 more2026-02-24⚡ eess

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

Die Arbeit stellt BEAT vor, ein Framework, das mittels kontrastiven Trigger-Lernens (CTL) erstmals visuelle Backdoor-Angriffe auf VLM-basierte Embodied Agents ermöglicht, indem es Objekte in der Umgebung als Trigger nutzt, um bei deren Vorhandensein spezifische Angriffsrichtlinien auszulösen, während die normale Leistung erhalten bleibt.

Qiusi Zhan, Hyeonjeong Ha, Rui Yang + 7 more2026-02-24💬 cs.CL

A Lightweight 3D-CNN for Event-Based Human Action Recognition with Privacy-Preserving Potential

Diese Arbeit stellt ein leichtgewichtiges 3D-CNN vor, das mit datenschutzfreundlichen Event-Kameradaten menschliche Aktivitäten mit hoher Genauigkeit erkennt und sich durch seine Kompaktheit für den Einsatz an Edge-Geräten eignet.

Mehdi Sefidgar Dilmaghani, Francis Fowley, Peter Corcoran2026-02-24💻 cs

Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Die Autoren stellen den theoretisch fundierten „Rank-enhancing Token Fuser" vor, ein neuartiges Fusionsframework, das durch die gezielte Nutzung des effektiven Rangs sowohl den Feature- als auch den Modality-Collapse in der multimodalen Repräsentation bekämpft und damit die State-of-the-Art-Ergebnisse bei der Vorhersage menschlicher Aktionen signifikant verbessert.

Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar + 1 more2026-02-24🤖 cs.LG

← Zurück Weiter →