FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

Die Arbeit stellt FiLo++ vor, eine Methode zur Zero-/Few-Shot-Anomalieerkennung, die durch die Kombination von fusionierten, feingranularen Beschreibungen mittels großer Sprachmodelle und einer deformierbaren Lokalisierung mit Grounding DINO präzise Anomalien in verschiedenen Formen und Größen ohne vorab gelabelte Zielklassendaten erkennt.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 3 more2026-03-03💻 cs

Polynomial, trigonometric, and tropical activations

Diese Arbeit stellt neue Aktivierungsfunktionen auf Basis orthogonaler Polynome, trigonometrischer Funktionen und tropischer Algebra vor, die durch varianzausgleichende Initialisierung das Training tiefer Modelle wie GPT-2 und ConvNeXt ohne Gradientenprobleme ermöglichen und sich zudem durch Hermite-Interpolation nahtlos zur Feinabstimmung an klassische Aktivierungen anpassen lassen.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs

Das Paper stellt WorldSense vor, den ersten Benchmark zur Bewertung des omnimodalen Videoverständnisses von Multimodal-LLMs, der durch die starke Kopplung von Audio und Video, eine große Vielfalt an Szenarien und hochwertige manuelle Annotationen bestehende Modelle vor erhebliche Herausforderungen stellt und neue Erkenntnisse für die Entwicklung realwelttauglicher KI-Systeme liefert.

Jack Hong, Shilin Yan, Jiayin Cai + 3 more2026-03-03🤖 cs.AI

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Die Arbeit stellt mit MemeXplain den ersten groß angelegten Datensatz für erklärbare Erkennung von Propaganda und Hassmemes vor und schlägt einen mehrstufigen Optimierungsansatz für Vision-Language-Modelle vor, der sowohl die Klassifizierungsgenauigkeit als auch die Qualität der Erklärungen im Vergleich zum State-of-the-Art signifikant verbessert.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Die Arbeit stellt SemHiTok vor, einen einheitlichen Bild-Tokenisierer, der durch einen semantisch geführten hierarchischen Codebook-Ansatz die Herausforderung eines optimalen Kompromisses zwischen multimodalem Verständnis und Bildgenerierung löst, indem er semantische und pixelbasierte Merkmale strukturell entkoppelt.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI