cs.CV Arbeiten | Gist.Science

StreamDiffusionV2: A Streaming System for Dynamic and Interactive Video Generation

Das Paper stellt StreamDiffusionV2 vor, ein training-freies System, das durch innovative Scheduling- und Parallelisierungstechniken Video-Diffusionsmodelle für interaktives Live-Streaming mit extrem niedriger Latenz und hoher Bildwiederholrate auf mehreren GPUs effizient und skalierbar macht.

Tianrui Feng, Zhi Li, Shuo Yang + 11 more2026-02-24🤖 cs.LG

PRISM: Diversifying Dataset Distillation by Decoupling Architectural Priors

PRISM ist ein Framework für die Datensatz-Distillation, das durch die Entkopplung von Logit-Matching und Regularisierung unter Verwendung unterschiedlicher Lehrer-Architekturen die inhärenten Verzerrungen einzelner Modelle überwindet und so auf ImageNet-1K eine signifikant höhere Intra-Klassen-Diversität und bessere Generalisierung als bestehende Methoden erreicht.

Brian B. Moser, Shalini Sarode, Federico Raue + 6 more2026-02-24🤖 cs.AI

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Die Arbeit stellt MoDES vor, ein trainingsfreies Framework, das durch einen global modulierten lokalen Gating-Mechanismus und eine dual-modale Schwellenwertoptimierung die Inferenz von Mixture-of-Experts Multimodal Large Language Models beschleunigt, ohne dabei die Genauigkeit zu beeinträchtigen.

Yushi Huang, Zining Wang, Zhihang Yuan + 5 more2026-02-24💬 cs.CL

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

Das Paper stellt Mantis vor, ein vielseitiges Vision-Language-Action-Modell, das durch einen neuartigen Ansatz mit entkoppelter visueller Vorausschau (Disentangled Visual Foresight) die Trainingskosten senkt und gleichzeitig die Sprachverständnis- sowie Reasoning-Fähigkeiten verbessert, was zu überlegenen Leistungen bei Robotermanipulation und Instruktionsbefolgung führt.

Yi Yang, Xueqi Li, Yiyang Chen + 7 more2026-02-24🤖 cs.AI

GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving

Die Arbeit stellt GuideFlow vor, ein neuartiges Planungsframework für autonomes Fahren, das durch die direkte Einbindung von Sicherheits- und physikalischen Randbedingungen in den Flow-Matching-Prozess sowie die Parametrisierung von Fahraggressivität Multimodalitätsprobleme löst und gleichzeitig state-of-the-art Ergebnisse auf führenden Benchmarks erzielt.

Lin Liu, Caiyan Jia, Guanyi Yu + 6 more2026-02-24💻 cs

LocateAnything3D: Vision-Language 3D Detection with Chain-of-Sight

Die Arbeit stellt LocateAnything3D vor, ein vision-sprachliches Modell, das die 3D-Objekterkennung durch eine neuartige „Chain-of-Sight"-Methode als Next-Token-Vorhersageproblem formuliert und damit neue State-of-the-Art-Ergebnisse auf dem Omni3D-Benchmark sowie starke Zero-Shot-Generalisierungsfähigkeiten erzielt.

Yunze Man, Shihao Wang, Guowen Zhang + 7 more2026-02-24💻 cs

SelfAI: A self-directed framework for long-horizon scientific discovery

Das Paper stellt SelfAI vor, ein selbstgesteuertes Multi-Agenten-Framework, das wissenschaftliche Entdeckungen durch strategische, trajectoriesteuerte Entscheidungsfindung und adaptive Abbruchkriterien automatisiert, um effizientere und diversere Ergebnisse in komplexen Forschungsbereichen zu erzielen.

Xiao Wu, Ting-Zhu Huang, Liang-Jian Deng + 9 more2026-02-24🤖 cs.AI

Generative Neural Video Compression via Video Diffusion Prior

Das Paper stellt GNVC-VD vor, das erste auf einem Video-Diffusions-Transformer basierende neuronale Videokompressionsframework, das durch eine einheitliche latente Verfeinerung auf Sequenzebene temporale Inkonsistenzen und Flimmern bei extrem niedrigen Bitraten effektiv beseitigt und damit den perceptuellen Qualitätsstandard gegenüber bestehenden Methoden deutlich verbessert.

Qi Mao, Hao Cheng, Tinghan Yang + 2 more2026-02-24💻 cs

MedDIFT: Multi-Scale Diffusion-Based Correspondence in 3D Medical Imaging

MedDIFT ist ein trainingsfreies 3D-Korrespondenzframework für medizinische Bilder, das multi-skalige Merkmale eines vortrainierten latenten Diffusionsmodells nutzt, um präzise anatomische Zuordnungen ohne taskspezifisches Training zu ermöglichen.

Xingyu Zhang, Anna Reithmeir, Fryderyk Kögl + 3 more2026-02-24💻 cs

CheXmask-U: Quantifying uncertainty in landmark-based anatomical segmentation for X-ray images

Die Arbeit stellt CheXmask-U vor, ein Framework zur Schätzung von Unsicherheiten bei der landmarkenbasierten anatomischen Segmentierung von Röntgenbildern mittels hybrider neuronaler Netzwerke, das ein großes Datenset mit Unsicherheitsschätzungen bereitstellt, um die Robustheit und Sicherheit solcher Modelle zu verbessern.

Matias Cosarinsky, Nicolas Gaggion, Rodrigo Echeveste + 1 more2026-02-24💻 cs

MRD: Using Physically Based Differentiable Rendering to Probe Vision Models for 3D Scene Understanding

Die Arbeit stellt MRD vor, eine Methode, die physikalisch basiertes differenzierbares Rendering nutzt, um die implizite 3D-Verständnisfähigkeit von Vision-Modellen zu untersuchen, indem sie 3D-Szenenparameter findet, die trotz physikalischer Unterschiede identische Modellaktivierungen erzeugen.

Benjamin Beilharz, Thomas S. A. Wallis2026-02-24💻 cs

DL $^3$ M: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models

Die Studie stellt DL $^3$ M vor, ein Framework, das die hochpräzise Bildklassifizierung durch ein hybrides MobileCoAtNet-Modell mit der Textgenerierung von Large Language Models verbindet, um klinische Erklärungen zu erstellen, und zeigt dabei, dass trotz verbesserter Erklärungsqualität die aktuellen LLMs aufgrund fehlender Stabilität noch nicht für hochriskante medizinische Entscheidungen geeignet sind.

Md. Najib Hasan, Imran Ahmad, Sourav Basak Shuvo + 4 more2026-02-24🤖 cs.AI

Foundation Model Priors Enhance Object Focus in Feature Space for Source-Free Object Detection

Die Arbeit stellt FALCON-SFOD vor, ein Framework, das durch die Nutzung von Foundation-Model-Priors zur Regularisierung des Merkmalsraums und eine ausbalancierte Rauschrobustheit bei Pseudo-Labels die Objektivierung in der quellenfreien Objekterkennung unter Domänenverschiebungen verbessert.

Sairam VCR, Rishabh Lalla, Aveen Dayal + 4 more2026-02-24💻 cs

REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation

Die Arbeit stellt REVEALER vor, ein auf verstärktem visuellem Reasoning basierendes Framework, das Multimodal Large Language Models durch eine strukturierte „Grounding-Reasoning-Conclusion"-Paradigma und GRPO-Optimierung befähigt, die Ausrichtung zwischen Text und Bild auf Elementebene präzise und interpretierbar zu bewerten.

Fulin Shi, Wenyi Xiao, Bin Chen + 2 more2026-02-24💻 cs

Object-WIPER : Training-Free Object and Associated Effect Removal in Videos

Die Arbeit stellt Object-WIPER vor, ein trainingsfreies Framework, das dynamische Objekte und deren visuelle Effekte aus Videos entfernt und durch semantisch konsistente, zeitlich kohärente Inhalte ersetzt, indem es einen vortrainierten Text-zu-Video-Diffusions-Transformer nutzt und durch ein neues Evaluationsmaß sowie einen zugehörigen Benchmark validiert wird.

Saksham Singh Kushwaha, Sayan Nag, Yapeng Tian + 1 more2026-02-24💻 cs

LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval

Das Paper stellt LookBench vor, ein lebendiges und ganzheitliches Open-Benchmark für die Fashion-Image-Retrieval in Echtzeit-E-Commerce-Umgebungen, das aktuelle Produktbilder und KI-generierte Mode umfasst, um Modelle durch zeitstempelierte, kontaminationsbewusste Evaluierung und anspruchsvolle Aufgaben zu testen.

Gensmo. ai, Chao Gao, Siqiao Xue + 5 more2026-02-24💻 cs

PyraTok: Language-Aligned Pyramidal Tokenizer for Video Understanding and Generation

PyraTok ist ein neuartiger, sprachausgerichteter pyramidalisierter Tokenizer, der durch das Lernen semantisch strukturierter diskreter Latente über mehrere räumlich-zeitliche Auflösungen hinweg die Leistung von Video-VAEs bei Rekonstruktion, Text-zu-Video-Generierung und Zero-Shot-Verständnisaufgaben signifikant verbessert.

Onkar Susladkar, Tushar Prakash, Adheesh Juvekar + 4 more2026-02-24🤖 cs.AI

Emotion-LLaMAv2 and MMEVerse: A New Framework and Benchmark for Multimodal Emotion Understanding

Die Autoren stellen Emotion-LLaMAv2 und den MMEVerse-Benchmark vor, ein neues Framework mit einem End-to-End-Multiview-Encoder, einem Conv-Attention-Fusionsmodul und einem Curriculum-Instruction-Tuning, das auf einer neu annotierten Datensammlung von 130.000 Clips basiert, um die multimodale Emotionserkennung und -analyse zu verbessern.

Xiaojiang Peng, Jingyi Chen, Zebang Cheng + 11 more2026-02-24🤖 cs.AI

FineVAU: A Novel Human-Aligned Benchmark for Fine-Grained Video Anomaly Understanding

Die Arbeit stellt FineVAU vor, ein neues Benchmark für das feingranulare Verständnis von Videoanomalien, das den Mangel an menschenähnlichen Evaluierungsmetriken durch die Einführung des FVScore-Maßstabs und des FineW3-Datensatzes adressiert und dabei kritische Grenzen aktueller Large Vision-Language-Modelle bei der räumlichen und zeitlichen Erfassung von Anomalien aufdeckt.

João Pereira, Vasco Lopes, João Neves + 1 more2026-02-24💻 cs

RepSFNet : A Single Fusion Network with Structural Reparameterization for Crowd Counting

Die Arbeit stellt RepSFNet vor, eine leichte, auf struktureller Reparametrisierung basierende Single-Fusion-Architektur für das Crowd Counting, die durch den Einsatz eines RepLK-ViT-Rückgrats und einer effizienten Kontextmodellierung eine hohe Genauigkeit bei gleichzeitig reduzierter Latenz für Echtzeitanwendungen auf Edge-Geräten erreicht.

Mas Nurul Achmadiah, Chi-Chia Sun, Wen-Kai Kuo + 1 more2026-02-24💻 cs

← Zurück Weiter →

cs.CV