cs.CV Arbeiten | Gist.Science

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Die vorgestellte Arbeit adressiert die mangelnde Generalisierungsfähigkeit herkömmlicher Methoden zur Gesichtserkennung von Spoofing-Angriffen, indem sie den ersten groß angelegten Visual-Question-Answering-Datensatz namens FaceCoT mit Chain-of-Thought-Annotationen sowie eine darauf aufbauende progressive Lernstrategie (CEPL) einführt, die Multimodal Large Language Models nutzt, um sowohl die Robustheit als auch die Interpretierbarkeit von Face Anti-Spoofing-Systemen signifikant zu verbessern.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Die Arbeit stellt OmniSpatial vor, ein umfassendes Benchmark auf psychologischer Grundlage mit über 8.400 annotierten Beispielen, das die signifikanten Defizite aktueller Vision-Language-Modelle in der komplexen räumlichen Reasoning aufzeigt und zwei Strategien zur Verbesserung dieser Fähigkeiten evaluiert.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Die Studie stellt UniCUE vor, ein einheitliches Framework, das erstmals Chinesische Cued Speech direkt in Sprache umwandelt, indem es ein Verständnis- und ein Generierungsaufgabensystem integriert, und stellt zudem den großen Datensatz UniCUE-HI für diese Aufgabe bereit.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Diese Studie verbessert die Erkennung von nicht im Trainingsdatensatz enthaltenen Wildtieren (Out-of-Distribution) bei Afrikas „Big Five" durch den Vergleich parametrischer und nicht-parametrischer Methoden, wobei sich herausstellt, dass ein auf ImageNet vortrainierter Nearest-Class-Mean-Ansatz die Leistung bestehender OOD-Methoden signifikant übertrifft.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Die Arbeit stellt eine Meta-Lern-Methode namens Meta-Adaptive Prompt Distillation vor, die durch die Anpassung von aus aufgabenrelevanten visuellen Merkmalen destillierten Soft-Prompts die Few-Shot-Fähigkeiten von Large Multimodal Models für das Visual Question Answering verbessert und dabei die Leistung herkömmlicher In-Context-Learning-Ansätze signifikant übertrifft.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Die Arbeit stellt BitVLA vor, ein vollständig natives 1-Bit-Vision-Language-Action-Modell für die robotische Manipulation, das durch ein effizientes Design und eine Quantisierungs-Distillations-Strategie eine mit vollpräzisen Baseline-Modellen vergleichbare Leistung bei einer 11-fachen Reduktion des Speicherverbrauchs und einer 4,4-fachen Verringerung der Latenz auf ressourcenbeschränkten Edge-Geräten ermöglicht.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Die Arbeit stellt PD $^{2}$ GS vor, ein neuartiges, vollständig selbstüberwachtes Framework, das mittels Gauß-Splatting und kontinuierlicher Deformation präzise part-level Entkopplung und kinematische Modellierung von artikulierte Objekten ermöglicht und dabei durch die Einführung des RS-Art-Datensatzes auch realistische Evaluierungsmöglichkeiten bietet.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Die Arbeit stellt VITA vor, eine Methode zur Null-Shot-Lernung von Wertfunktionen, die durch Testzeit-Adaptation von Vision-Language-Modellen deren Generalisierungsfähigkeit und zeitliches Schlussfolgern verbessert und damit in robotischen Manipulationsaufgaben sowie beim Offline-Reinforcement-Learning den aktuellen Stand der Technik übertrifft.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

Die Arbeit stellt VINCIE vor, ein skalierbares Modell, das durch das direkte Lernen aus annotierten Videos und die Nutzung von Block-kausalen Diffusions-Transformern für mehrere Proxy-Aufgaben state-of-the-art Ergebnisse beim in-Kontext-Bildbearbeiten erzielt, ohne auf spezialisierte Expertensysteme angewiesen zu sein.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

Das Paper stellt NIC-RobustBench, ein umfassendes Open-Source-Toolkit vor, das als Benchmark für die Analyse der adversarialen Robustheit neuronaler Bildkompressionsverfahren dient und dabei sowohl die Stabilität der Kompressionsmodelle als auch deren Auswirkungen auf nachgelagerte Aufgaben untersucht.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

Das Paper stellt ConCM vor, ein neuartiges Few-Shot Class-Incremental-Learning-Framework, das durch eine hippocampusinspirierte Prototyp-Kalibrierung und dynamische Strukturabstimmung die Konsistenz von Merkmalen und Strukturen sicherstellt und so auf gängigen Benchmarks neue State-of-the-Art-Ergebnisse erzielt.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Die Arbeit stellt VisionDrop vor, ein trainingsfreies Framework zur visuellen Token-Reduktion in Large Vision-Language Models, das durch die Vermeidung von textbasierten Annahmen und die Nutzung einer fortschrittlichen, rein visuellen Selektion sowie schrittweisen Pruning-Prozesse die Rechenkosten erheblich senkt, ohne dabei die Modellleistung signifikant zu beeinträchtigen.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

EchoMimicV3 ist ein effizientes Framework mit nur 1,3 Milliarden Parametern, das durch innovative Architekturen wie „Soup-of-Tasks" und „Soup-of-Modals" sowie spezielle Trainingsstrategien eine einheitliche, multimodale und multiaufgabenbasierte menschliche Animation mit hoher Leistung und geringer Rechenlast ermöglicht.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

CLiFT: Compressive Light-Field Tokens for Compute-Efficient and Adaptive Neural Rendering

Die Arbeit stellt CLiFT vor, einen neuralen Rendering-Ansatz, der Szenen als komprimierte Lichtfeld-Token darstellt, um durch eine adaptive Token-Anpassung eine rechen-effiziente und qualitativ hochwertige Neuansicht-Synthese unter verschiedenen Berechnungsbudgets zu ermöglichen.

Zhengqing Wang, Yuefan Wu, Jiacheng Chen + 2 more2026-03-03💻 cs

Advancing Complex Video Object Segmentation via Progressive Concept Construction

Die vorgestellte Arbeit führt mit SeC ein konzeptgesteuertes Framework für die Videoobjektsegmentierung ein, das Large Vision-Language Models zur schrittweisen Konstruktion hochleveliger Repräsentationen nutzt und durch die Einführung des neuen SeCVOS-Benchmarks einen neuen State-of-the-Art in diesem Bereich erreicht.

Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong + 7 more2026-03-03🤖 cs.AI

Digital and Robotic Twinning for Validation of Proximity Operations and Formation Flying

Dieser Beitrag stellt ein modulares, hybrides Digital- und Robotik-Twinning-Framework vor, das die Validierung von Guidance-, Navigation- und Control-Systemen für Raumfahrzeugrendezvous und Formation Flying durch eine integrierte Kombination aus schneller Simulation und Hardware-in-the-Loop-Tests auf Robotik-Testständen ermöglicht.

Z. Ahmed, E. Bates, P. Francesch Huc + 5 more2026-03-03💻 cs

MonoFusion: Sparse-View 4D Reconstruction via Monocular Fusion

Der Artikel stellt MonoFusion vor, eine Methode zur Rekonstruktion dynamischer Szenen aus wenigen Kameraperspektiven, die durch die präzise Ausrichtung unabhängiger monokularer Rekonstruktionen eine konsistente 4D-Darstellung ermöglicht und dabei kostspielige Mehrkamerasysteme ersetzt.

Zihan Wang, Jeff Tan, Tarasha Khurana + 2 more2026-03-03💻 cs

HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

Der Artikel stellt HGTS-Former vor, ein neuartiges hypergraphbasiertes Transformer-Netzwerk, das durch hierarchische Hypergraphen komplexe multivariate Zeitreihen analysiert und dabei auf neuen Datensätzen für die Kernfusion sowie anderen Benchmark-Datensätzen state-of-the-art-Ergebnisse erzielt.

Hao Si, Xiao Wang, Fan Zhang + 5 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Diese Arbeit stellt eine neue MR-Simulationsmethode vor, die durch die Gruppierung von Isochromaten mit identischen Parametern die Rechenzeit im Vergleich zu herkömmlichen Verfahren um den Faktor 3 bis 72 reduziert.

Hidenori Takeshima2026-03-03⚡ eess

Learning Robust Intervention Representations with Delta Embeddings

Diese Arbeit stellt eine Methode vor, die durch die Verwendung von kausalen Delta-Einbettungen zur Darstellung von Eingriffen im latenten Raum eine robuste und distributionsoffene Generalisierung bei der kausalen Repräsentationslernen von Bildpaaren ohne zusätzliche Überwachung ermöglicht.

Panagiotis Alimisis, Christos Diou2026-03-03🤖 cs.AI

← Zurück Weiter →

cs.CV