cs.CV Arbeiten | Gist.Science

LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

Das Paper stellt LinVideo vor, ein datenfreies Nachtrainierungsframework, das durch eine automatisierte Schichtauswahl und ein neues Verteilungsanpassungsziel (ADM) quadratische Aufmerksamkeitsmechanismen in Video-Diffusionsmodellen effizient durch lineare Aufmerksamkeitsmechanismen ersetzt und dabei eine Geschwindigkeitssteigerung von 1,25- bis 2-fach bei Erhalt der Generierungsqualität ermöglicht.

Yushi Huang, Xingtong Ge, Ruihao Gong + 2 more2026-02-24💻 cs

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Die Autoren stellen das State-Specific Model (SSM) vor, ein neuartiges Framework, das durch kritische Zustandskompression, das Lernen von Aktionsmustern und cross-temporale Interaktionen sowohl die Handlungserkennung als auch die -vorhersage in ungeschnittenen Videos verbessert und dabei die oft vernachlässigte Rolle der Agentenabsicht berücksichtigt.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Die Autoren stellen NEO vor, eine neuartige Familie nativer Vision-Language-Modelle, die auf grundlegenden Prinzipien basiert, um die Lücke zu modularen Architekturen zu schließen und durch eine einheitliche, skalierbare Struktur die gemeinsame Verarbeitung von Bild- und Textdaten effizienter zu gestalten.

Haiwen Diao, Mingxuan Li, Silei Wu + 6 more2026-02-24🤖 cs.AI

The Intricate Dance of Prompt Complexity, Quality, Diversity, and Consistency in T2I Models

Diese Arbeit untersucht systematisch den Einfluss der Prompt-Komplexität auf die Qualität, Vielfalt und Konsistenz von Text-zu-Bild-Modellen, wobei sie zeigt, dass komplexere Prompts zwar die Verteilungslücke zu realen Daten verringern, aber die Vielfalt und Konsistenz beeinträchtigen, während die Methode der Prompt-Erweiterung durch einen vortrainierten Sprachmodell als Likelihood-Schätzer die beste Leistung erzielt.

Zhang Xiaofeng, Aaron Courville, Michal Drozdzal + 1 more2026-02-24💻 cs

MergeMix: A Unified Augmentation Paradigm for Visual and Multi-Modal Understanding

Die Arbeit stellt MergeMix vor, ein einheitliches Augmentierungsparadigma, das durch eine effiziente Token-Merge-basierte Mixup-Strategie und eine optimierte Präferenzverlustfunktion die Stabilität von Supervised Fine-Tuning mit der Leistungsfähigkeit von Reinforcement Learning für die Ausrichtung multimodaler Großsprachenmodelle vereint.

Xin Jin, Siyuan Li, Siyong Jian + 2 more2026-02-24💻 cs

SYNAPSE-Net: A Unified Framework with Lesion-Aware Hierarchical Gating for Robust Segmentation of Heterogeneous Brain Lesions

Die Studie stellt SYNAPSE-Net vor, ein einheitliches Framework mit läsionsbewusster hierarchischer Gating-Strategie, das durch multi-streame Kodierer und cross-modale Aufmerksamkeit eine robuste und generalisierbare Segmentierung heterogener Hirnläsionen aus multimodalen MRT-Daten ermöglicht.

Md. Mehedi Hassan, Shafqat Alam, Shahriar Ahmed Seam + 1 more2026-02-24⚡ eess

BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning

Die Arbeit stellt BEAT vor, ein Framework, das mittels kontrastiven Trigger-Lernens (CTL) erstmals visuelle Backdoor-Angriffe auf VLM-basierte Embodied Agents ermöglicht, indem es Objekte in der Umgebung als Trigger nutzt, um bei deren Vorhandensein spezifische Angriffsrichtlinien auszulösen, während die normale Leistung erhalten bleibt.

Qiusi Zhan, Hyeonjeong Ha, Rui Yang + 7 more2026-02-24💬 cs.CL

A Lightweight 3D-CNN for Event-Based Human Action Recognition with Privacy-Preserving Potential

Diese Arbeit stellt ein leichtgewichtiges 3D-CNN vor, das mit datenschutzfreundlichen Event-Kameradaten menschliche Aktivitäten mit hoher Genauigkeit erkennt und sich durch seine Kompaktheit für den Einsatz an Edge-Geräten eignet.

Mehdi Sefidgar Dilmaghani, Francis Fowley, Peter Corcoran2026-02-24💻 cs

Countering Multi-modal Representation Collapse through Rank-targeted Fusion

Die Autoren stellen den theoretisch fundierten „Rank-enhancing Token Fuser" vor, ein neuartiges Fusionsframework, das durch die gezielte Nutzung des effektiven Rangs sowohl den Feature- als auch den Modality-Collapse in der multimodalen Repräsentation bekämpft und damit die State-of-the-Art-Ergebnisse bei der Vorhersage menschlicher Aktionen signifikant verbessert.

Seulgi Kim, Kiran Kokilepersaud, Mohit Prabhushankar + 1 more2026-02-24🤖 cs.LG

StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

Das Paper stellt StreamDiffusionV2 vor, ein training-freies System, das durch innovative Scheduling- und Parallelisierungstechniken Video-Diffusionsmodelle für interaktives Live-Streaming mit extrem niedriger Latenz und hoher Bildwiederholrate auf mehreren GPUs effizient und skalierbar macht.

Tianrui Feng, Zhi Li, Shuo Yang + 11 more2026-02-24🤖 cs.LG

PRISM: Diversifying Dataset Distillation by Decoupling Architectural Priors

PRISM ist ein Framework für die Datensatz-Distillation, das durch die Entkopplung von Logit-Matching und Regularisierung unter Verwendung unterschiedlicher Lehrer-Architekturen die inhärenten Verzerrungen einzelner Modelle überwindet und so auf ImageNet-1K eine signifikant höhere Intra-Klassen-Diversität und bessere Generalisierung als bestehende Methoden erreicht.

Brian B. Moser, Shalini Sarode, Federico Raue + 6 more2026-02-24🤖 cs.AI

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Die Arbeit stellt MoDES vor, ein trainingsfreies Framework, das durch einen global modulierten lokalen Gating-Mechanismus und eine dual-modale Schwellenwertoptimierung die Inferenz von Mixture-of-Experts Multimodal Large Language Models beschleunigt, ohne dabei die Genauigkeit zu beeinträchtigen.

Yushi Huang, Zining Wang, Zhihang Yuan + 5 more2026-02-24💬 cs.CL

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Das Paper stellt Mantis vor, ein vielseitiges Vision-Language-Action-Modell, das durch einen neuartigen Ansatz mit entkoppelter visueller Vorausschau (Disentangled Visual Foresight) die Trainingskosten senkt und gleichzeitig die Sprachverständnis- sowie Reasoning-Fähigkeiten verbessert, was zu überlegenen Leistungen bei Robotermanipulation und Instruktionsbefolgung führt.

Yi Yang, Xueqi Li, Yiyang Chen + 7 more2026-02-24🤖 cs.AI

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

Die Arbeit stellt GuideFlow vor, ein neuartiges Planungsframework für autonomes Fahren, das durch die direkte Einbindung von Sicherheits- und physikalischen Randbedingungen in den Flow-Matching-Prozess sowie die Parametrisierung von Fahraggressivität Multimodalitätsprobleme löst und gleichzeitig state-of-the-art Ergebnisse auf führenden Benchmarks erzielt.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

Die Arbeit stellt LocateAnything3D vor, ein vision-sprachliches Modell, das die 3D-Objekterkennung durch eine neuartige „Chain-of-Sight"-Methode als Next-Token-Vorhersageproblem formuliert und damit neue State-of-the-Art-Ergebnisse auf dem Omni3D-Benchmark sowie starke Zero-Shot-Generalisierungsfähigkeiten erzielt.

Yunze Man, Shihao Wang, Guowen Zhang + 7 more2026-02-24💻 cs

SelfAI: A self-directed framework for long-horizon scientific discovery

Das Paper stellt SelfAI vor, ein selbstgesteuertes Multi-Agenten-Framework, das wissenschaftliche Entdeckungen durch strategische, trajectoriesteuerte Entscheidungsfindung und adaptive Abbruchkriterien automatisiert, um effizientere und diversere Ergebnisse in komplexen Forschungsbereichen zu erzielen.

Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng + 9 more2026-02-24🤖 cs.AI

Generative Neural Video Compression via Video Diffusion Prior

Das Paper stellt GNVC-VD vor, das erste auf einem Video-Diffusions-Transformer basierende neuronale Videokompressionsframework, das durch eine einheitliche latente Verfeinerung auf Sequenzebene temporale Inkonsistenzen und Flimmern bei extrem niedrigen Bitraten effektiv beseitigt und damit den perceptuellen Qualitätsstandard gegenüber bestehenden Methoden deutlich verbessert.

Qi Mao, Hao Cheng, Tinghan Yang + 2 more2026-02-24💻 cs

MedDIFT: Multi-Scale Diffusion-Based Correspondence in 3D Medical Imaging

MedDIFT ist ein trainingsfreies 3D-Korrespondenzframework für medizinische Bilder, das multi-skalige Merkmale eines vortrainierten latenten Diffusionsmodells nutzt, um präzise anatomische Zuordnungen ohne taskspezifisches Training zu ermöglichen.

Xingyu Zhang, Anna Reithmeir, Fryderyk Kögl + 3 more2026-02-24💻 cs

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Die Arbeit stellt CheXmask-U vor, ein Framework zur Schätzung von Unsicherheiten bei der landmarkenbasierten anatomischen Segmentierung von Röntgenbildern mittels hybrider neuronaler Netzwerke, das ein großes Datenset mit Unsicherheitsschätzungen bereitstellt, um die Robustheit und Sicherheit solcher Modelle zu verbessern.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Die Arbeit stellt MRD vor, eine Methode, die physikalisch basiertes differenzierbares Rendering nutzt, um die implizite 3D-Verständnisfähigkeit von Vision-Modellen zu untersuchen, indem sie 3D-Szenenparameter findet, die trotz physikalischer Unterschiede identische Modellaktivierungen erzeugen.

Benjamin Beilharz, Thomas S. A. Wallis2026-02-24💻 cs

← Zurück Weiter →