cs.CV Arbeiten | Gist.Science

DeepEyes: Incentivizing "Thinking with Images" via Reinforcement Learning

Das Paper stellt DeepEyes vor, ein Modell, das durch Reinforcement Learning ohne vorgeschaltete überwachte Feinabstimmung lernt, visuelle Informationen aktiv in seinen textbasierten Denkprozess zu integrieren, wodurch es die Leistung bei Wahrnehmungs-, Reasoning- und Halluzinationsaufgaben signifikant verbessert und menschliche visuelle Denkmuster nachahmt.

Ziwei Zheng, Michael Yang, Jack Hong + 5 more2026-03-03💻 cs

GradPCA: Leveraging NTK Alignment for Reliable Out-of-Distribution Detection

Die Arbeit stellt GradPCA vor, eine zuverlässige Methode zur Erkennung von Out-of-Distribution-Daten, die die niedrigrangige Struktur von Neuronalen-Netzwerk-Gradienten durch NTK-Ausrichtung und PCA nutzt, um konsistent bessere Ergebnisse als bestehende Verfahren zu erzielen.

Mariia Seleznova, Hung-Hsu Chou, Claudio Mayrink Verdun + 1 more2026-03-03🤖 cs.LG

Dynamic Token Reweighting for Robust Vision-Language Models

Dieses Paper stellt DTR vor, eine neuartige Inferenzzeit-Verteidigung, die durch dynamische Neugewichtung von visuellen Token-Weights in den Key-Value-Caches multimodale Jailbreak-Angriffe auf Vision-Language-Modelle wirksam abwehrt, ohne dabei die allgemeinen Fähigkeiten des Modells oder die Inferenzeffizienz zu beeinträchtigen.

Tanqiu Jiang, Jiacheng Liang, Rongyi Zhu + 3 more2026-03-03💬 cs.CL

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

Die Studie stellt Seek-CAD vor, ein training-freies Verfahren, das das lokal ausgeführte Open-Source-LLM DeepSeek-R1 in Kombination mit visuellem Feedback und Chain-of-Thought-Reflexion nutzt, um parametrische 3D-CAD-Modelle selbstverfeinernd zu generieren.

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Probabilistic Kernel Function for Fast Angle Testing

Diese Arbeit stellt zwei deterministische, projektionsbasierte Wahrscheinlichkeits-Kernfunktionen zur effizienten Winkeltests vor, die ohne asymptotische Annahmen auskommen und in der Annäherungssuche nach nächsten Nachbarn (ANNS) eine 2,5- bis 3-fach höhere Durchsatzrate als der HNSW-Algorithmus erreichen.

Kejing Lu, Chuan Xiao, Yoshiharu Ishikawa2026-03-03🤖 cs.AI

Point-MoE: Large-Scale Multi-Dataset Training with Mixture-of-Experts for 3D Semantic Segmentation

Die Arbeit stellt Point-MoE vor, ein Mixture-of-Experts-Modell, das durch spärlich aktivierte Experten und einen Router die gemeinsame Schulung heterogener 3D-Punktwolken-Datensätze ohne manuelle Datensatz-Labels ermöglicht und dabei sowohl auf bekannten als auch in Zero-Shot-Szenarien den aktuellen Stand der Technik übertrifft.

Xuweiyi Chen, Wentao Zhou, Aruni RoyChowdhury + 1 more2026-03-03💻 cs

SenseFlow: Scaling Distribution Matching for Flow-based Text-to-Image Distillation

Das Paper stellt SenseFlow vor, eine Methode, die durch implizite Verteilungsausrichtung und intrasegmentale Führung die Verteilungsmatching-Destillation erfolgreich auf große flussbasierte Text-zu-Bild-Modelle wie SD 3.5 und FLUX skaliert und dabei überlegene Ergebnisse erzielt.

Xingtong Ge, Xin Zhang, Tongda Xu + 4 more2026-03-03💻 cs

Harnessing Chain-of-Thought Reasoning in Multimodal Large Language Models for Face Anti-Spoofing

Die vorgestellte Arbeit adressiert die mangelnde Generalisierungsfähigkeit herkömmlicher Methoden zur Gesichtserkennung von Spoofing-Angriffen, indem sie den ersten groß angelegten Visual-Question-Answering-Datensatz namens FaceCoT mit Chain-of-Thought-Annotationen sowie eine darauf aufbauende progressive Lernstrategie (CEPL) einführt, die Multimodal Large Language Models nutzt, um sowohl die Robustheit als auch die Interpretierbarkeit von Face Anti-Spoofing-Systemen signifikant zu verbessern.

Honglu Zhang, Zhiqin Fang, Ningning Zhao + 4 more2026-03-03💻 cs

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Die Arbeit stellt OmniSpatial vor, ein umfassendes Benchmark auf psychologischer Grundlage mit über 8.400 annotierten Beispielen, das die signifikanten Defizite aktueller Vision-Language-Modelle in der komplexen räumlichen Reasoning aufzeigt und zwei Strategien zur Verbesserung dieser Fähigkeiten evaluiert.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

UniCUE: Unified Recognition and Generation Framework for Chinese Cued Speech Video-to-Speech Generation

Die Studie stellt UniCUE vor, ein einheitliches Framework, das erstmals Chinesische Cued Speech direkt in Sprache umwandelt, indem es ein Verständnis- und ein Generierungsaufgabensystem integriert, und stellt zudem den großen Datensatz UniCUE-HI für diese Aufgabe bereit.

Jinting Wang, Shan Yang, Chenxing Li + 2 more2026-03-03⚡ eess

Improving Wildlife Out-of-Distribution Detection: Africas Big Five

Diese Studie verbessert die Erkennung von nicht im Trainingsdatensatz enthaltenen Wildtieren (Out-of-Distribution) bei Afrikas „Big Five" durch den Vergleich parametrischer und nicht-parametrischer Methoden, wobei sich herausstellt, dass ein auf ImageNet vortrainierter Nearest-Class-Mean-Ansatz die Leistung bestehender OOD-Methoden signifikant übertrifft.

Mufhumudzi Muthivhi, Jiahao Huo, Fredrik Gustafsson + 1 more2026-03-03🤖 cs.AI

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Die Arbeit stellt eine Meta-Lern-Methode namens Meta-Adaptive Prompt Distillation vor, die durch die Anpassung von aus aufgabenrelevanten visuellen Merkmalen destillierten Soft-Prompts die Few-Shot-Fähigkeiten von Large Multimodal Models für das Visual Question Answering verbessert und dabei die Leistung herkömmlicher In-Context-Learning-Ansätze signifikant übertrifft.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

BitVLA: 1-bit Vision-Language-Action Models for Robotics Manipulation

Die Arbeit stellt BitVLA vor, ein vollständig natives 1-Bit-Vision-Language-Action-Modell für die robotische Manipulation, das durch ein effizientes Design und eine Quantisierungs-Distillations-Strategie eine mit vollpräzisen Baseline-Modellen vergleichbare Leistung bei einer 11-fachen Reduktion des Speicherverbrauchs und einer 4,4-fachen Verringerung der Latenz auf ressourcenbeschränkten Edge-Geräten ermöglicht.

Hongyu Wang, Chuyan Xiong, Ruiping Wang + 1 more2026-03-03💻 cs

PD $^{2}$ GS: Part-Level Decoupling and Continuous Deformation of Articulated Objects via Gaussian Splatting

Die Arbeit stellt PD $^{2}$ GS vor, ein neuartiges, vollständig selbstüberwachtes Framework, das mittels Gauß-Splatting und kontinuierlicher Deformation präzise part-level Entkopplung und kinematische Modellierung von artikulierte Objekten ermöglicht und dabei durch die Einführung des RS-Art-Datensatzes auch realistische Evaluierungsmöglichkeiten bietet.

Haowen Wang, Xiaoping Yuan, Zhao Jin + 6 more2026-03-03💻 cs

VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models

Die Arbeit stellt VITA vor, eine Methode zur Null-Shot-Lernung von Wertfunktionen, die durch Testzeit-Adaptation von Vision-Language-Modellen deren Generalisierungsfähigkeit und zeitliches Schlussfolgern verbessert und damit in robotischen Manipulationsaufgaben sowie beim Offline-Reinforcement-Learning den aktuellen Stand der Technik übertrifft.

Christos Ziakas, Alessandra Russo2026-03-03🤖 cs.AI

VINCIE: Unlocking In-context Image Editing from Video

Die Arbeit stellt VINCIE vor, ein skalierbares Modell, das durch das direkte Lernen aus annotierten Videos und die Nutzung von Block-kausalen Diffusions-Transformern für mehrere Proxy-Aufgaben state-of-the-art Ergebnisse beim in-Kontext-Bildbearbeiten erzielt, ohne auf spezialisierte Expertensysteme angewiesen zu sein.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

NIC-RobustBench: A Comprehensive Open-Source Toolkit for Neural Image Compression and Robustness Analysis

Das Paper stellt NIC-RobustBench, ein umfassendes Open-Source-Toolkit vor, das als Benchmark für die Analyse der adversarialen Robustheit neuronaler Bildkompressionsverfahren dient und dabei sowohl die Stabilität der Kompressionsmodelle als auch deren Auswirkungen auf nachgelagerte Aufgaben untersucht.

Georgii Bychkov, Khaled Abud, Egor Kovalev + 4 more2026-03-03⚡ eess

Consistency-Driven Calibration and Matching for Few-Shot Class-Incremental Learning

Das Paper stellt ConCM vor, ein neuartiges Few-Shot Class-Incremental-Learning-Framework, das durch eine hippocampusinspirierte Prototyp-Kalibrierung und dynamische Strukturabstimmung die Konsistenz von Merkmalen und Strukturen sicherstellt und so auf gängigen Benchmarks neue State-of-the-Art-Ergebnisse erzielt.

Qinzhe Wang, Zixuan Chen, Keke Huang + 3 more2026-03-03🤖 cs.LG

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Die Arbeit stellt VisionDrop vor, ein trainingsfreies Framework zur visuellen Token-Reduktion in Large Vision-Language Models, das durch die Vermeidung von textbasierten Annahmen und die Nutzung einer fortschrittlichen, rein visuellen Selektion sowie schrittweisen Pruning-Prozesse die Rechenkosten erheblich senkt, ohne dabei die Modellleistung signifikant zu beeinträchtigen.

Rui Xu, Yunke Wang, Yong Luo + 1 more2026-03-03💻 cs

EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation

EchoMimicV3 ist ein effizientes Framework mit nur 1,3 Milliarden Parametern, das durch innovative Architekturen wie „Soup-of-Tasks" und „Soup-of-Modals" sowie spezielle Trainingsstrategien eine einheitliche, multimodale und multiaufgabenbasierte menschliche Animation mit hoher Leistung und geringer Rechenlast ermöglicht.

Rang Meng, Yan Wang, Weipeng Wu + 3 more2026-03-03💻 cs

← Zurück Weiter →

cs.CV