Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Die vorgestellte Arbeit führt den modularen, trainingsfreien „Adaptive Diversity Cache" (ADC) ein, der durch die dynamische Ansammlung und Anpassung vielfältiger Merkmalsdarstellungen während der Inferenz die langschwänzige Verzerrung bei der Erkennung von Mensch-Objekt-Interaktionen (HOI) effektiv reduziert und dabei die Leistung seltener Kategorien auf etablierten Datensätzen signifikant verbessert.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong LiWed, 11 Ma🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Die Arbeit stellt V-Attack vor, eine neue Methode zur gezielten adversarialen Manipulation von Large Vision-Language Models (LVLMs), die durch die Ausnutzung entwirrter Wertmerkmale (Value Features) statt verknüpfter Patch-Tokens eine bisher unerreichte Kontrolle über lokale Bildsemantik ermöglicht und die Angriffserfolgsrate im Vergleich zu bestehenden Methoden um durchschnittlich 36 % steigert.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Die Studie stellt UPA-RFAS vor, ein universelles und übertragbares Angriffsframework für Vision-Language-Action-Modelle, das durch eine physikalische Patch-Attacke in der Lage ist, Roboter unter verschiedenen Architekturen und Umgebungen zu manipulieren, indem es Repräsentationsverschiebungen und spezifische VLA-Schwachstellen ausnutzt.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong JiangWed, 11 Ma🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Das Paper stellt AFRO vor, ein selbstüberwachtes Framework, das durch die Modellierung von Zustands-Aktions-Dynamiken in einem gemeinsamen latenten Raum ohne explizite geometrische Rekonstruktion oder Aktionsüberwachung dynamische Bewusstsein 3D-Repräsentationen lernt und so die Manipulationserfolgsraten von Robotern in simulierten und realen Umgebungen erheblich verbessert.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Die Arbeit stellt AVGGT vor, eine trainingsfreie Zwei-Schritt-Strategie, die durch die Umwandlung früher globaler Aufmerksamkeitsschichten in Frame-Attention und ein Subsampling von K/V-Tokens die Inferenzgeschwindigkeit von VGGT und π3\pi^3 um das 2- bis 10-fache steigert, ohne dabei die Genauigkeit in dichten Multi-View-Szenarien zu beeinträchtigen.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Die Arbeit stellt LiM-YOLO vor, einen optimierten Schiffserkennungs-Algorithmus für optische Fernerkundungsbilder, der durch eine Verschiebung der Pyramiden-Ebenen von P3-P5 auf P2-P4 sowie den Einsatz von GN-CBLinear die Detektionsgenauigkeit bei deutlich reduzierter Parameteranzahl und verbesserter Stabilität bei kleinen Schiffen erreicht.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

Directional Textual Inversion for Personalized Text-to-Image Generation

Die Arbeit stellt Directional Textual Inversion (DTI) vor, eine Methode zur Personalisierung von Text-zu-Bild-Generierung, die durch die Optimierung ausschließlich der Richtungsvektoren von Embeddings auf einer hypersphärischen Mannigfaltigkeit statt ihrer Norm die Texttreue verbessert und eine kohärente Interpolation zwischen gelernten Konzepten ermöglicht.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Diese Arbeit stellt mit D²-Align ein neues Framework vor, das durch eine gerichtete Entkopplung der Belohnungssignale das Phänomen des Zusammenbruchs von Präferenzmodi (Preference Mode Collapse) in Diffusionsmodellen bekämpft und so die generative Vielfalt bei gleichzeitiger Verbesserung der menschlichen Präferenzabstimmung sicherstellt.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu LiWed, 11 Ma💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Die Arbeit schlägt eine generalisierbare Methode zur Erkennung von KI-generierten Bildern vor, die darauf basiert, reale Bilder mit den finalen Komponenten verschiedener Generatoren zu „kontaminieren" und einen Detektor zu trainieren, der diese Manipulationen selbst bei bisher unbekannten Modellen mit einer durchschnittlichen Genauigkeit von 98,83 % zuverlässig identifiziert.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal SoumikWed, 11 Ma💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Die Arbeit stellt CLEAR-Mamba vor, ein verbessertes Framework für die Klassifizierung ophthalmischer Angiographie-Bilder, das durch eine hypernetzwerkbasierte adaptive Schicht und ein verlässlichkeitsbewusstes Vorhersageschema auf Evidenzunsicherheit die Generalisierbarkeit und Zuverlässigkeit bei der Diagnose von Netzhauterkrankungen über verschiedene Modalitäten hinweg signifikant steigert.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin OoiWed, 11 Ma🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Die Arbeit stellt mit RegionReasoner ein Reinforcement-Learning-Framework und den zugehörigen Benchmark RegionDial-Bench vor, die durch erzwungene Verankerung von Schlussfolgerungen in Bounding-Boxen sowie einen global-lokalen Konsistenz-Preis die mehrstufige visuelle Schlussfolgerung, die räumliche Verankerung und die semantische Kohärenz in großen Vision-Sprach-Modellen signifikant verbessern.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. SnoekWed, 11 Ma💻 cs

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Die Arbeit stellt eine trainingsfreie Methode namens Test-Time Correction (TTC) vor, die durch die Kalibrierung stochastischer Zustände anhand des ersten Frames die Fehlerakkumulation bei der autoregressiven Generierung langer Videos in Echtzeit effektiv reduziert und dabei die Qualität trainingsbasierter Ansätze erreicht.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao GuoWed, 11 Ma💻 cs

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Die vorgestellte Arbeit entwickelt einen energiebewussten Rahmen für das kontinuierliche Lernen in spikenden neuronalen Netzen, der durch adaptive Spike-Budgets und replay-basierte Mechanismen sowohl die Genauigkeit als auch die Energieeffizienz bei der Verarbeitung von bildbasierten und ereignisbasierten Daten verbessert und so die praktische Einsetzbarkeit neuromorpher Visionssysteme vorantreibt.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed MiaWed, 11 Ma🤖 cs.AI