cs.CV Arbeiten | Gist.Science

MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection

Die Autoren stellen mit MMSD3.0 einen neuen Benchmark für die multimodale Sarkasmerkennung vor, der ausschließlich Mehrbild-Szenarien umfasst, und entwickeln das Cross-Image Reasoning Model (CIRM), das durch gezielte Bild-zwischen-Bild-Modellierung und feinkörnige multimodale Fusion einen neuen State-of-the-Art in beiden Ein- und Mehrbild-Szenarien erreicht.

Haochen Zhao, Yuyao Kong, Yongxiu Xu + 4 more2026-03-02💻 cs

Enhancing CLIP Robustness via Cross-Modality Alignment

Die Arbeit stellt COLA vor, einen training-freien Framework auf Basis optimalen Transports, der die Robustheit von CLIP gegen adversariale Angriffe durch eine explizite Wiederherstellung der globalen und lokalen Ausrichtung zwischen Bild- und Textmerkmalen signifikant verbessert.

Xingyu Zhu, Beier Zhu, Shuo Wang + 2 more2026-03-02💻 cs

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

Diese Arbeit stellt die Attentive Feature Aggregation (AFA) vor, einen leichten Pooling-Mechanismus, der visuomotorische Policies durch das Lernen der Fokussierung auf aufgabenrelevante visuelle Hinweise robust gegenüber visuellen Störungen und Ablenkungen macht, ohne dabei teure Datenaugmentierung oder Feinabstimmung vor-pretrainierter Modelle zu benötigen.

Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier + 4 more2026-03-02💻 cs

Score-Regularized Joint Sampling with Importance Weights for Flow Matching

Die Autoren stellen einen Rahmen vor, der durch score-basierte Regularisierung und Importance Weighting nicht-unabhängige Stichproben aus Flow-Matching-Modellen ermöglicht, um sowohl die Vielfalt und Qualität der Generierung als auch die Genauigkeit von Erwartungswert-Schätzungen unter begrenzten Sampling-Budgets zu verbessern.

Xinshuang Liu, Runfa Blark Li, Shaoxiu Wei + 1 more2026-03-02🤖 cs.AI

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

Die Studie zeigt, dass bei der Klassifizierung von Hirntumoren in MRT-Bildern moderne, allgemein vortrainierte CNNs wie ConvNeXt-Tiny (93 % Genauigkeit) vortrainierten medizinischen Modellen wie RadImageNet DenseNet121 (68 % Genauigkeit) überlegen sind, was darauf hindeutet, dass eine domain-spezifische Vortrainierung in datenarmen Szenarien nicht zwangsläufig zu besseren Ergebnissen führt.

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation

Das Paper stellt Q-Save vor, ein umfassendes Benchmark-Dataset und ein einheitliches Evaluierungsmodell, das mithilfe einer dreistufigen Trainingsstrategie mit Chain-of-Thought-Formatierung sowohl die Qualität von KI-generierten Videos bewertet als auch detaillierte, interpretierbare Erklärungen für visuelle, dynamische und textbasierte Aspekte liefert.

Xiele Wu, Zicheng Zhang, Mingtao Chen + 7 more2026-03-02💻 cs

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

Das Paper stellt SocialNav vor, ein fundiertes Modell für sozialbewusste Navigation, das durch einen hierarchischen "Gehirn-Aktion"-Ansatz, einen neuartigen Datensatz mit 7 Millionen Proben und ein mehrstufiges Training mit dem neuartigen SAFE-GRPO-Verfahren signifikante Verbesserungen bei Erfolgsrate und sozialer Konformität im Vergleich zum aktuellen Stand der Technik erzielt.

Ziyi Chen, Yingnan Guo, Zedong Chu + 14 more2026-03-02🤖 cs.AI

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

Die Arbeit stellt SpecTemp vor, ein effizientes, auf Reinforcement Learning basierendes Framework für das Verständnis langer Videos, das durch eine kooperative Dual-Modell-Architektur redundante Kontextinformationen reduziert und die Inferenzgeschwindigkeit im Vergleich zu bestehenden Methoden signifikant steigert, ohne dabei die Genauigkeit zu beeinträchtigen.

Pengfei Hu, Meng Cao, Yingyao Wang + 6 more2026-03-02💻 cs

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

Die Arbeit stellt TARDis vor, ein physikbewusstes Framework, das durch die Entzerrung zeitinvarianter anatomischer und zeitabhängiger Perfusionsmerkmale die Segmentierung und Klassifizierung von Tumoren in unvollständigen kontrastmittelgestützten CT-Daten verbessert, indem es fehlende Phasen als Lücken in einer kontinuierlichen Zeit-Attenuations-Kurve behandelt.

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective

Diese Arbeit stellt einen selbstüberwachten Ansatz zur Erkennung KI-generierter Bilder vor, der durch das Lernen von Kamera-Metadaten (EXIF) robuste und generalisierbare Merkmale für die forensische Analyse extrahiert.

Nan Zhong, Mian Zou, Yiran Xu + 4 more2026-03-02💻 cs

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models

Die Arbeit stellt FRIEDA vor, einen Benchmark zur Evaluierung komplexer, mehrstufiger kartografischer Schlussfolgerungen in Vision-Language-Modellen, der zeigt, dass selbst fortschrittlichste Modelle erhebliche Defizite im Vergleich zur menschlichen Leistung aufweisen.

Jiyoon Pyo, Yuankun Jiao, Dongwon Jung + 11 more2026-03-02🤖 cs.AI

Sharp Monocular View Synthesis in Less Than a Second

Das Paper stellt SHARP vor, eine Methode zur fotorealistischen Synthese neuer Ansichten aus einem einzigen Bild in unter einer Sekunde durch Regression von 3D-Gauß-Parametern, die einen neuen State-of-the-Art in Bezug auf Bildqualität und Geschwindigkeit erreicht.

Lars Mescheder, Wei Dong, Shiwei Li + 10 more2026-03-02🤖 cs.LG

Geometric-Photometric Event-based 3D Gaussian Ray Tracing

Diese Arbeit stellt einen neuartigen Rahmen für das ereignisbasierte 3D-Gaussian-Splatting vor, der durch eine Entkopplung der geometrischen und radiometrischen Darstellung mittels Ray-Tracing und gewarpten Ereignisbildern eine überlegene Genauigkeit und hohe zeitliche Auflösung ohne externe Initialisierung erreicht.

Kai Kohyama, Yoshimitsu Aoki, Guillermo Gallego + 1 more2026-03-02🤖 cs.AI

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

Das Paper stellt ColaVLA vor, ein einheitliches Vision-Language-Action-Framework, das durch die Übertragung von kognitiver Latent-Reasoning in einen kompakten Embedding-Raum und einen hierarchischen parallelen Trajektorienplaner die Herausforderungen von Latenz und Diskontinuität bei VLM-basierten autonomen Fahrsystemen löst und gleichzeitig State-of-the-Art-Ergebnisse auf dem nuScenes-Benchmark erzielt.

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

Inference-time Physics Alignment of Video Generative Models with Latent World Models

Die Autoren stellen WMReward vor, eine Methode zur Inference-time-Alignment von Videogenerierungsmodellen, die einen latenten Weltmodell-Reward nutzt, um die physikalische Plausibilität durch das Steuern von Denoising-Trajektorien zu verbessern und dabei den ersten Platz im ICCV 2025 Perception Test PhysicsIQ Challenge zu erreichen.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich + 7 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

Die Arbeit stellt CPiRi vor, ein neuartiges Framework für die multivariate Zeitreihenvorhersage, das durch eine kanalpermutationsinvariante Architektur und ein regularisiertes Training sowohl die Abhängigkeiten zwischen Kanälen effektiv nutzt als auch eine robuste Generalisierung auf neue oder neu angeordnete Kanäle ohne Nachtraining ermöglicht.

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs

Scale Equivariance Regularization and Feature Lifting in High Dynamic Range Modulo Imaging

Diese Arbeit stellt einen lernbasierten HDR-Rekonstruktionsrahmen für Modulo-Bilder vor, der durch skalenäquivariante Regularisierung und ein Feature-Lifting-Design mit Rohdaten, differenzierten Wrap-Artefakten und einer geschlossenen Initialisierung die Unterscheidung zwischen echten Bildstrukturen und Wrap-Diskontinuitäten verbessert und damit state-of-the-art Ergebnisse erzielt.

Brayan Monroy, Jorge Bacca2026-03-02⚡ eess

Imagine a City: CityGenAgent for Procedural 3D City Generation

Die Arbeit stellt CityGenAgent vor, ein naturalsprachgesteuertes Framework, das durch eine zweistufige Lernstrategie aus überwachtem Feinabstimmen und Bestärkendem Lernen eine hierarchische, prozedurale Generierung und Bearbeitung hochwertiger 3D-Städte mit hoher semantischer Ausrichtung und visueller Qualität ermöglicht.

Zishan Liu, Zecong Tang, RuoCheng Wu + 6 more2026-03-02💻 cs

Erase at the Core: Representation Unlearning for Machine Unlearning

Die Arbeit stellt „Erase at the Core" (EC) vor, ein plattformunabhängiges Framework, das durch tiefüberwachtes Lernen und kontrastives Unlearning auf mehreren Netzwerkebenen sicherstellt, dass nicht nur die Ausgabe, sondern auch die internen Merkmalsrepräsentationen eines Modells effektiv aus dem Gedächtnis gelöscht werden, um so das Phänomen des oberflächlichen Vergessens zu überwinden.

Jaewon Lee, Yongwoo Kim, Donghyun Kim2026-03-02🤖 cs.LG

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

Die Arbeit stellt PixelRush vor, ein trainingsfreies Framework, das durch effizientes Patch-basiertes Denoising und spezielle Glättungsstrategien hochauflösende 4K-Bilder in nur etwa 20 Sekunden generiert und damit den Zustand der Technik um den Faktor 10 bis 35 beschleunigt.

Hong-Phuc Lai, Phong Nguyen, Anh Tran2026-03-02💻 cs

← Zurück Weiter →