LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Die Arbeit stellt LiM-YOLO vor, einen optimierten Schiffserkennungs-Algorithmus für optische Fernerkundungsbilder, der durch eine Verschiebung der Pyramiden-Ebenen von P3-P5 auf P2-P4 sowie den Einsatz von GN-CBLinear die Detektionsgenauigkeit bei deutlich reduzierter Parameteranzahl und verbesserter Stabilität bei kleinen Schiffen erreicht.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

Directional Textual Inversion for Personalized Text-to-Image Generation

Die Arbeit stellt Directional Textual Inversion (DTI) vor, eine Methode zur Personalisierung von Text-zu-Bild-Generierung, die durch die Optimierung ausschließlich der Richtungsvektoren von Embeddings auf einer hypersphärischen Mannigfaltigkeit statt ihrer Norm die Texttreue verbessert und eine kohärente Interpolation zwischen gelernten Konzepten ermöglicht.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim2026-03-11🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Diese Arbeit stellt mit D²-Align ein neues Framework vor, das durch eine gerichtete Entkopplung der Belohnungssignale das Phänomen des Zusammenbruchs von Präferenzmodi (Preference Mode Collapse) in Diffusionsmodellen bekämpft und so die generative Vielfalt bei gleichzeitiger Verbesserung der menschlichen Präferenzabstimmung sicherstellt.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Die Arbeit schlägt eine generalisierbare Methode zur Erkennung von KI-generierten Bildern vor, die darauf basiert, reale Bilder mit den finalen Komponenten verschiedener Generatoren zu „kontaminieren" und einen Detektor zu trainieren, der diese Manipulationen selbst bei bisher unbekannten Modellen mit einer durchschnittlichen Genauigkeit von 98,83 % zuverlässig identifiziert.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal Soumik2026-03-11💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Die Arbeit stellt CLEAR-Mamba vor, ein verbessertes Framework für die Klassifizierung ophthalmischer Angiographie-Bilder, das durch eine hypernetzwerkbasierte adaptive Schicht und ein verlässlichkeitsbewusstes Vorhersageschema auf Evidenzunsicherheit die Generalisierbarkeit und Zuverlässigkeit bei der Diagnose von Netzhauterkrankungen über verschiedene Modalitäten hinweg signifikant steigert.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Die Arbeit stellt mit RegionReasoner ein Reinforcement-Learning-Framework und den zugehörigen Benchmark RegionDial-Bench vor, die durch erzwungene Verankerung von Schlussfolgerungen in Bounding-Boxen sowie einen global-lokalen Konsistenz-Preis die mehrstufige visuelle Schlussfolgerung, die räumliche Verankerung und die semantische Kohärenz in großen Vision-Sprach-Modellen signifikant verbessern.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek2026-03-11💻 cs

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Die Arbeit stellt eine trainingsfreie Methode namens Test-Time Correction (TTC) vor, die durch die Kalibrierung stochastischer Zustände anhand des ersten Frames die Fehlerakkumulation bei der autoregressiven Generierung langer Videos in Echtzeit effektiv reduziert und dabei die Qualität trainingsbasierter Ansätze erreicht.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Die vorgestellte Arbeit entwickelt einen energiebewussten Rahmen für das kontinuierliche Lernen in spikenden neuronalen Netzen, der durch adaptive Spike-Budgets und replay-basierte Mechanismen sowohl die Genauigkeit als auch die Energieeffizienz bei der Verarbeitung von bildbasierten und ereignisbasierten Daten verbessert und so die praktische Einsetzbarkeit neuromorpher Visionssysteme vorantreibt.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Diese Arbeit stellt einen dualen Pipeline-Ansatz mit den Foundation-Modellen Grounding DINO 1.5, YOLOv11 und SAM 2.1 vor, der sowohl im Zero-Shot- als auch im überwachten Modus eine neue Bestleistung bei der Segmentierung von Vogelbildern auf dem CUB-200-2011-Datensatz erzielt und dabei bestehende, spezialisierte Segmentierungsnetzwerke übertrifft.

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

Die Arbeit stellt DOCFORGE-BENCH vor, das erste Zero-Shot-Benchmark für die Erkennung von Dokumentenfälschungen, das zeigt, dass bestehende Methoden aufgrund einer massiven Kalibrierungsproblematik bei der Schwellenwertwahl und nicht aufgrund mangelnder Diskriminierungsfähigkeit in realen Szenarien versagen.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Die Arbeit stellt Pri4R vor, eine einfache Methode, die Vision-Language-Action-Modelle durch das Training mit privilegierten 4D-Punktverläufen in die Lage versetzt, physikalische Welt-Dynamiken implizit zu erlernen und so die Leistung bei Manipulationsaufgaben ohne zusätzliche Inferenzkosten erheblich zu steigern.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI