cs.CV Arbeiten | Gist.Science

Agentic Very Long Video Understanding

Das Paper stellt EGAgent vor, ein agentic Framework, das auf Entitäts-Szenengraphen basiert, um durch strukturierte Suche und hybride visuell-auditive Analyse kontinuierliche, langfristige Ego-Videos für kontextuelle Verständnisaufgaben zu interpretieren und dabei state-of-the-art Ergebnisse auf EgoLifeQA und Video-MME (Long) erzielt.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Die vorgestellte Arbeit führt den MiTA-Attention-Mechanismus ein, der durch eine Kombination aus Kompression und Routing effiziente Fast-Weight-Skalierung für lange Sequenzen ermöglicht, indem sie breite MLPs auf Landmark-Abfragen reduziert und deformierbare Experten basierend auf den top-k aktivierten Schlüssel-Wert-Paaren konstruiert.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

Die Arbeit stellt DDP-WM vor, ein effizientes Weltmodell, das durch die Entflechtung von primären physikalischen Dynamiken und sekundären Hintergrundaktualisierungen die Inferenzgeschwindigkeit um das Neunfache steigert und gleichzeitig die Erfolgsrate bei robotischen Planungsaufgaben im Vergleich zu dichten Transformer-Modellen signifikant verbessert.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Das Paper stellt „Rolling Sink" vor, eine trainingsfreie Methode, die auf der Analyse des AR-Cache-Managements basiert und autoregressive Videodiffusionsmodelle, die nur auf kurzen Clips trainiert wurden, in der Lage macht, ultra-lange Videos mit hoher visueller Qualität und zeitlicher Konsistenz zu generieren.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Die vorgestellte Arbeit entwickelt einen erklärbarkeitsgesteuerten aktiven Lernansatz für die medizinische Bildanalyse, der durch die Kombination von Klassifikationsunsicherheit und der Ausrichtung auf radiologisch relevante Regionen die Dateneffizienz und klinische Interpretierbarkeit von Modellen signifikant verbessert.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

Die Arbeit stellt Pailitao-VL vor, ein einheitliches, multimodales Suchsystem für die Industrie, das durch einen Wechsel von kontrastivem Lernen zu einer absoluten ID-Erkennung und eine kalibrierte, listenbasierte Neuordnung sowohl die Präzision als auch die Echtzeit-Effizienz bei der Produktsuche auf der Alibaba-Plattform signifikant verbessert.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

Das Paper stellt DeltaGateNet vor, ein neuartiges Framework zur Erkennung von Fahrermüdigkeit mittels EEG, das durch die explizite Modellierung bidirektionaler temporaler Dynamiken und asymmetrischer neuronaler Aktivierungsmuster robuste und generalisierbare Ergebnisse auf verschiedenen Datensätzen erzielt.

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

Die Studie stellt EA-Swin vor, einen einbettungsagnostischen Swin-Transformer, der in Kombination mit dem neuen EA-Video-Datensatz die Erkennung von KI-generierten Videos durch überlegene Genauigkeit und Generalisierungsfähigkeit gegenüber bestehenden Methoden revolutioniert.

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard ist ein dezentrales, graphenbewusstes Transformer-Framework, das durch die Kombination von dispersionsadaptivem Metrik-Lernen, räumlich konditionierter Aufmerksamkeit und differenziell privaten Einbettungen eine robuste und datenschutzkonforme Personenwiederverkennung über städtische Kameras hinweg ermöglicht.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

Das Paper stellt CARE vor, einen molekülgesteuerten Fundament-Modell-Ansatz für die Pathologie, der durch adaptive Regionen und eine zweistufige Vortrainingsstrategie die Heterogenität von Gewebestrukturen besser erfasst und dabei mit nur einem Zehntel der üblichen Datenmenge überlegene Ergebnisse auf zahlreichen Aufgaben erzielt.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

Die Studie stellt MasqLoRA vor, einen ersten systematischen Angriffsrahmen, der es ermöglicht, Text-zu-Bild-Diffusionsmodelle durch das Einschleusen eines scheinbar harmlosen LoRA-Adapters mit einem versteckten Backdoor zu manipulieren, der bei einem spezifischen Triggerwort eine schädliche Ausgabe erzeugt, während das Modell im Normalfall unauffällig bleibt.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

Das Paper stellt RobustVisRAG vor, ein kausalitätsbasiertes Dual-Pfad-Framework, das die Robustheit von visuellen Retrieval-Augmented-Generation-Systemen gegenüber visuellen Verzerrungen durch die Entkopplung von semantischen Inhalten und Degradationssignalen signifikant verbessert.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

Das Paper stellt LFG vor, ein label-freies, lehrergeführtes Framework, das aus unposeden Online-Driving-Videos eine einheitliche pseudo-4D-Repräsentation lernt und damit sowohl für die autonome Fahrplanung als auch für semantische und geometrische Aufgaben überlegene Ergebnisse erzielt.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

Die Arbeit stellt „Diffusion Probe" vor, einen effizienten, modellunabhängigen Ansatz, der mithilfe von CNN-Proben die Verteilung der Cross-Attention in frühen Diffusionsstufen nutzt, um die endgültige Bildqualität von Text-zu-Bild-Modellen präzise vorherzusagen und so Rechenkosten durch frühzeitige Entscheidungen zu senken.

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

Die Arbeit stellt DiffusionHarmonizer vor, ein Online-Framework, das mithilfe eines einzelnen, zeitlich konditionierten Diffusions-Enhancers und einer speziellen Datenaufbereitung neuartige Ansichten aus neuralen Rekonstruktionen in fotorealistische und zeitlich konsistente Simulationen umwandelt, um Artefakte zu beheben und dynamische Objekte realistisch zu integrieren.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

Das Paper stellt UFO-4D vor, ein einheitliches Feedforward-Framework, das aus nur zwei unpositionierten Bildern eine dichte 4D-Rekonstruktion mittels dynamischer 3D-Gaussian-Splats erzeugt und dabei durch die differenzierbare Rendering-Synthese mehrerer Signale aus einer gemeinsamen geometrischen Darstellung eine überlegene Schätzung von Geometrie, Bewegung und Kameraposition ermöglicht.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Die Arbeit stellt Dr. Seg vor, ein plug-and-play-Framework für visuelle Großsprachenmodelle, das durch einen Look-to-Confirm-Mechanismus und ein rangbasiertes Belohnungssystem die Annahme widerlegt, dass reine Sprachtrainingsparadigmen nahtlos auf visuelle Wahrnehmungsaufgaben übertragbar sind, und so die Leistung in komplexen Szenarien signifikant verbessert.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Die Arbeit stellt AlignVAR vor, ein neuartiges visuelles autoregressives Framework für die Bildsuperauflösung, das durch die Einführung von Spatial Consistency Autoregression und Hierarchical Consistency Constraint globale Konsistenz sicherstellt und dabei sowohl die strukturelle Kohärenz als auch die Inferenzgeschwindigkeit im Vergleich zu bestehenden Diffusionsmodellen erheblich verbessert.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

Die Arbeit stellt SOLACE vor, ein unüberwachtes Nachtrainierungsframework für Text-zu-Bild-Modelle, das durch die Nutzung eines intrinsischen Selbstvertrauenssignals als Belohnungssignal die Bildqualität verbessert, ohne externe Annotatoren oder Belohnungsmodelle zu benötigen.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

Dr.Occ: Depth- and Region-Guided 3D Occupancy from Surround-View Cameras for Autonomous Driving

Die Arbeit stellt Dr. Occ vor, ein Framework für die 3D-Besetzungsvorhersage aus Umgebungskameras, das durch eine tiefen- und regionsgeführte Architektur geometrische Ausrichtungsfehler und räumliche Klassenungleichgewichte überwindet und damit auf dem Occ3D-nuScenes-Benchmark signifikante Verbesserungen gegenüber bestehenden Methoden erzielt.

Xubo Zhu, Haoyang Zhang, Fei He + 4 more2026-03-06💻 cs

← Zurück Weiter →