cs.CV Arbeiten | Gist.Science

MorphAny3D: Unleashing the Power of Structured Latent in 3D Morphing

Das Paper stellt MorphAny3D vor, ein trainingsfreies Framework, das durch die intelligente Verschmelzung strukturierter latenter Merkmale (SLAT) mittels neuartiger Aufmerksamkeitsmechanismen hochwertige und konsistente 3D-Morphing-Sequenzen, einschließlich über Objektkategorien hinweg, erzeugt.

Xiaokun Sun, Zeyu Cai, Hao Tang + 3 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Das Paper stellt EmboTeam vor, ein Framework für die kollaborative Aufgabenerfüllung heterogener Roboterteams, das die semantische Stärke von Large Language Models mit der Zuverlässigkeit klassischer PDDL-Planer und reaktiver Behavior Trees verbindet, um die Erfolgsrate bei komplexen Haushaltsaufgaben signifikant zu steigern.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Die Studie zeigt, dass aktuelle multimodale Basis-Modelle bei der Identifizierung kontextuell wichtiger Momente in Fußballvideos kaum besser als Zufall sind, da sie oft auf eine einzelne dominante Modalität angewiesen sind und keine effektive Synthese aus mehreren Quellen leisten, was den Bedarf an modularen Architekturen und ergänzenden Trainingsverfahren unterstreicht.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Agentic Very Long Video Understanding

Das Paper stellt EGAgent vor, ein agentic Framework, das auf Entitäts-Szenengraphen basiert, um durch strukturierte Suche und hybride visuell-auditive Analyse kontinuierliche, langfristige Ego-Videos für kontextuelle Verständnisaufgaben zu interpretieren und dabei state-of-the-art Ergebnisse auf EgoLifeQA und Video-MME (Long) erzielt.

Aniket Rege, Arka Sadhu, Yuliang Li + 5 more2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

Die vorgestellte Arbeit führt den MiTA-Attention-Mechanismus ein, der durch eine Kombination aus Kompression und Routing effiziente Fast-Weight-Skalierung für lange Sequenzen ermöglicht, indem sie breite MLPs auf Landmark-Abfragen reduziert und deformierbare Experten basierend auf den top-k aktivierten Schlüssel-Wert-Paaren konstruiert.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

Die Arbeit stellt DDP-WM vor, ein effizientes Weltmodell, das durch die Entflechtung von primären physikalischen Dynamiken und sekundären Hintergrundaktualisierungen die Inferenzgeschwindigkeit um das Neunfache steigert und gleichzeitig die Erfolgsrate bei robotischen Planungsaufgaben im Vergleich zu dichten Transformer-Modellen signifikant verbessert.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

Das Paper stellt „Rolling Sink" vor, eine trainingsfreie Methode, die auf der Analyse des AR-Cache-Managements basiert und autoregressive Videodiffusionsmodelle, die nur auf kurzen Clips trainiert wurden, in der Lage macht, ultra-lange Videos mit hoher visueller Qualität und zeitlicher Konsistenz zu generieren.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Die vorgestellte Arbeit entwickelt einen erklärbarkeitsgesteuerten aktiven Lernansatz für die medizinische Bildanalyse, der durch die Kombination von Klassifikationsunsicherheit und der Ausrichtung auf radiologisch relevante Regionen die Dateneffizienz und klinische Interpretierbarkeit von Modellen signifikant verbessert.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

Die Arbeit stellt Pailitao-VL vor, ein einheitliches, multimodales Suchsystem für die Industrie, das durch einen Wechsel von kontrastivem Lernen zu einer absoluten ID-Erkennung und eine kalibrierte, listenbasierte Neuordnung sowohl die Präzision als auch die Echtzeit-Effizienz bei der Produktsuche auf der Alibaba-Plattform signifikant verbessert.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Bidirectional Temporal Dynamics Modeling for EEG-based Driving Fatigue Recognition

Das Paper stellt DeltaGateNet vor, ein neuartiges Framework zur Erkennung von Fahrermüdigkeit mittels EEG, das durch die explizite Modellierung bidirektionaler temporaler Dynamiken und asymmetrischer neuronaler Aktivierungsmuster robuste und generalisierbare Ergebnisse auf verschiedenen Datensätzen erzielt.

Yip Tin Po, Jianming Wang, Yutao Miao + 5 more2026-03-06💻 cs

EA-Swin: An Embedding-Agnostic Swin Transformer for AI-Generated Video Detection

Die Studie stellt EA-Swin vor, einen einbettungsagnostischen Swin-Transformer, der in Kombination mit dem neuen EA-Video-Datensatz die Erkennung von KI-generierten Videos durch überlegene Genauigkeit und Generalisierungsfähigkeit gegenüber bestehenden Methoden revolutioniert.

Hung Mai, Loi Dinh, Duc Hai Nguyen + 6 more2026-03-06💻 cs

CityGuard: Graph-Aware Private Descriptors for Bias-Resilient Identity Search Across Urban Cameras

CityGuard ist ein dezentrales, graphenbewusstes Transformer-Framework, das durch die Kombination von dispersionsadaptivem Metrik-Lernen, räumlich konditionierter Aufmerksamkeit und differenziell privaten Einbettungen eine robuste und datenschutzkonforme Personenwiederverkennung über städtische Kameras hinweg ermöglicht.

Rong Fu, Yibo Meng, Jia Yee Tan + 5 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

Das Paper stellt CARE vor, einen molekülgesteuerten Fundament-Modell-Ansatz für die Pathologie, der durch adaptive Regionen und eine zweistufige Vortrainingsstrategie die Heterogenität von Gewebestrukturen besser erfasst und dabei mit nur einem Zehntel der üblichen Datenmenge überlegene Ergebnisse auf zahlreichen Aufgaben erzielt.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters

Die Studie stellt MasqLoRA vor, einen ersten systematischen Angriffsrahmen, der es ermöglicht, Text-zu-Bild-Diffusionsmodelle durch das Einschleusen eines scheinbar harmlosen LoRA-Adapters mit einem versteckten Backdoor zu manipulieren, der bei einem spezifischen Triggerwort eine schädliche Ausgabe erzeugt, während das Modell im Normalfall unauffällig bleibt.

Liangwei Lyu, Jiaqi Xu, Jianwei Ding + 1 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

Das Paper stellt RobustVisRAG vor, ein kausalitätsbasiertes Dual-Pfad-Framework, das die Robustheit von visuellen Retrieval-Augmented-Generation-Systemen gegenüber visuellen Verzerrungen durch die Entkopplung von semantischen Inhalten und Degradationssignalen signifikant verbessert.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs

Learning to Drive is a Free Gift: Large-Scale Label-Free Autonomy Pretraining from Unposed In-The-Wild Videos

Das Paper stellt LFG vor, ein label-freies, lehrergeführtes Framework, das aus unposeden Online-Driving-Videos eine einheitliche pseudo-4D-Repräsentation lernt und damit sowohl für die autonome Fahrplanung als auch für semantische und geometrische Aufgaben überlegene Ergebnisse erzielt.

Matthew Strong, Wei-Jer Chang, Quentin Herau + 4 more2026-03-06💻 cs

Diffusion Probe: Generated Image Result Prediction Using CNN Probes

Die Arbeit stellt „Diffusion Probe" vor, einen effizienten, modellunabhängigen Ansatz, der mithilfe von CNN-Proben die Verteilung der Cross-Attention in frühen Diffusionsstufen nutzt, um die endgültige Bildqualität von Text-zu-Bild-Modellen präzise vorherzusagen und so Rechenkosten durch frühzeitige Entscheidungen zu senken.

Benlei Cui, Bukun Huang, Zhizeng Ye + 7 more2026-03-06💻 cs

DiffusionHarmonizer: Bridging Neural Reconstruction and Photorealistic Simulation with Online Diffusion Enhancer

Die Arbeit stellt DiffusionHarmonizer vor, ein Online-Framework, das mithilfe eines einzelnen, zeitlich konditionierten Diffusions-Enhancers und einer speziellen Datenaufbereitung neuartige Ansichten aus neuralen Rekonstruktionen in fotorealistische und zeitlich konsistente Simulationen umwandelt, um Artefakte zu beheben und dynamische Objekte realistisch zu integrieren.

Yuxuan Zhang, Katarína Tóthová, Zian Wang + 7 more2026-03-06💻 cs

UFO-4D: Unposed Feedforward 4D Reconstruction from Two Images

Das Paper stellt UFO-4D vor, ein einheitliches Feedforward-Framework, das aus nur zwei unpositionierten Bildern eine dichte 4D-Rekonstruktion mittels dynamischer 3D-Gaussian-Splats erzeugt und dabei durch die differenzierbare Rendering-Synthese mehrerer Signale aus einer gemeinsamen geometrischen Darstellung eine überlegene Schätzung von Geometrie, Bewegung und Kameraposition ermöglicht.

Junhwa Hur, Charles Herrmann, Songyou Peng + 4 more2026-03-06💻 cs

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Die Arbeit stellt Dr. Seg vor, ein plug-and-play-Framework für visuelle Großsprachenmodelle, das durch einen Look-to-Confirm-Mechanismus und ein rangbasiertes Belohnungssystem die Annahme widerlegt, dass reine Sprachtrainingsparadigmen nahtlos auf visuelle Wahrnehmungsaufgaben übertragbar sind, und so die Leistung in komplexen Szenarien signifikant verbessert.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

← Zurück Weiter →