MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection

Die Autoren stellen mit MMSD3.0 einen neuen Benchmark für die multimodale Sarkasmerkennung vor, der ausschließlich Mehrbild-Szenarien umfasst, und entwickeln das Cross-Image Reasoning Model (CIRM), das durch gezielte Bild-zwischen-Bild-Modellierung und feinkörnige multimodale Fusion einen neuen State-of-the-Art in beiden Ein- und Mehrbild-Szenarien erreicht.

Haochen Zhao, Yuyao Kong, Yongxiu Xu + 4 more2026-03-02💻 cs

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

Diese Arbeit stellt die Attentive Feature Aggregation (AFA) vor, einen leichten Pooling-Mechanismus, der visuomotorische Policies durch das Lernen der Fokussierung auf aufgabenrelevante visuelle Hinweise robust gegenüber visuellen Störungen und Ablenkungen macht, ohne dabei teure Datenaugmentierung oder Feinabstimmung vor-pretrainierter Modelle zu benötigen.

Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier + 4 more2026-03-02💻 cs

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

Die Studie zeigt, dass bei der Klassifizierung von Hirntumoren in MRT-Bildern moderne, allgemein vortrainierte CNNs wie ConvNeXt-Tiny (93 % Genauigkeit) vortrainierten medizinischen Modellen wie RadImageNet DenseNet121 (68 % Genauigkeit) überlegen sind, was darauf hindeutet, dass eine domain-spezifische Vortrainierung in datenarmen Szenarien nicht zwangsläufig zu besseren Ergebnissen führt.

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

Das Paper stellt SocialNav vor, ein fundiertes Modell für sozialbewusste Navigation, das durch einen hierarchischen "Gehirn-Aktion"-Ansatz, einen neuartigen Datensatz mit 7 Millionen Proben und ein mehrstufiges Training mit dem neuartigen SAFE-GRPO-Verfahren signifikante Verbesserungen bei Erfolgsrate und sozialer Konformität im Vergleich zum aktuellen Stand der Technik erzielt.

Ziyi Chen, Yingnan Guo, Zedong Chu + 14 more2026-03-02🤖 cs.AI

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

Die Arbeit stellt SpecTemp vor, ein effizientes, auf Reinforcement Learning basierendes Framework für das Verständnis langer Videos, das durch eine kooperative Dual-Modell-Architektur redundante Kontextinformationen reduziert und die Inferenzgeschwindigkeit im Vergleich zu bestehenden Methoden signifikant steigert, ohne dabei die Genauigkeit zu beeinträchtigen.

Pengfei Hu, Meng Cao, Yingyao Wang + 6 more2026-03-02💻 cs

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

Die Arbeit stellt TARDis vor, ein physikbewusstes Framework, das durch die Entzerrung zeitinvarianter anatomischer und zeitabhängiger Perfusionsmerkmale die Segmentierung und Klassifizierung von Tumoren in unvollständigen kontrastmittelgestützten CT-Daten verbessert, indem es fehlende Phasen als Lücken in einer kontinuierlichen Zeit-Attenuations-Kurve behandelt.

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

Das Paper stellt ColaVLA vor, ein einheitliches Vision-Language-Action-Framework, das durch die Übertragung von kognitiver Latent-Reasoning in einen kompakten Embedding-Raum und einen hierarchischen parallelen Trajektorienplaner die Herausforderungen von Latenz und Diskontinuität bei VLM-basierten autonomen Fahrsystemen löst und gleichzeitig State-of-the-Art-Ergebnisse auf dem nuScenes-Benchmark erzielt.

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

Die Arbeit stellt CPiRi vor, ein neuartiges Framework für die multivariate Zeitreihenvorhersage, das durch eine kanalpermutationsinvariante Architektur und ein regularisiertes Training sowohl die Abhängigkeiten zwischen Kanälen effektiv nutzt als auch eine robuste Generalisierung auf neue oder neu angeordnete Kanäle ohne Nachtraining ermöglicht.

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs

Scale Equivariance Regularization and Feature Lifting in High Dynamic Range Modulo Imaging

Diese Arbeit stellt einen lernbasierten HDR-Rekonstruktionsrahmen für Modulo-Bilder vor, der durch skalenäquivariante Regularisierung und ein Feature-Lifting-Design mit Rohdaten, differenzierten Wrap-Artefakten und einer geschlossenen Initialisierung die Unterscheidung zwischen echten Bildstrukturen und Wrap-Diskontinuitäten verbessert und damit state-of-the-art Ergebnisse erzielt.

Brayan Monroy, Jorge Bacca2026-03-02⚡ eess

Erase at the Core: Representation Unlearning for Machine Unlearning

Die Arbeit stellt „Erase at the Core" (EC) vor, ein plattformunabhängiges Framework, das durch tiefüberwachtes Lernen und kontrastives Unlearning auf mehreren Netzwerkebenen sicherstellt, dass nicht nur die Ausgabe, sondern auch die internen Merkmalsrepräsentationen eines Modells effektiv aus dem Gedächtnis gelöscht werden, um so das Phänomen des oberflächlichen Vergessens zu überwinden.

Jaewon Lee, Yongwoo Kim, Donghyun Kim2026-03-02🤖 cs.LG