cs.CV Arbeiten | Gist.Science

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Die Arbeit stellt SPAN vor, eine Methode zur monokularen 3D-Objekterkennung, die durch räumliche Punkt- und 3D-2D-Projektionsausrichtung die geometrische Inkonsistenz decoupled-basierter Ansätze behebt und so die Leistung bestehender Detektoren signifikant verbessert.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming YangWed, 11 Ma💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Das Paper stellt MediRound vor, ein neues Framework mit einem zugehörigen Datensatz (MR-MedSeg) und einem Korrekturmechanismus, das die mehrstufige, entitätsbasierte medizinische Bildsegmentierung durch dialogbasiertes Schlussfolgern ermöglicht und damit bestehende Ein-Runden-Methoden für medizinische Lernszenarien übertrifft.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming LuWed, 11 Ma🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Die vorgestellte Arbeit führt den modularen, trainingsfreien „Adaptive Diversity Cache" (ADC) ein, der durch die dynamische Ansammlung und Anpassung vielfältiger Merkmalsdarstellungen während der Inferenz die langschwänzige Verzerrung bei der Erkennung von Mensch-Objekt-Interaktionen (HOI) effektiv reduziert und dabei die Leistung seltener Kategorien auf etablierten Datensätzen signifikant verbessert.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong LiWed, 11 Ma🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Die Arbeit stellt V-Attack vor, eine neue Methode zur gezielten adversarialen Manipulation von Large Vision-Language Models (LVLMs), die durch die Ausnutzung entwirrter Wertmerkmale (Value Features) statt verknüpfter Patch-Tokens eine bisher unerreichte Kontrolle über lokale Bildsemantik ermöglicht und die Angriffserfolgsrate im Vergleich zu bestehenden Methoden um durchschnittlich 36 % steigert.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Die Studie stellt UPA-RFAS vor, ein universelles und übertragbares Angriffsframework für Vision-Language-Action-Modelle, das durch eine physikalische Patch-Attacke in der Lage ist, Roboter unter verschiedenen Architekturen und Umgebungen zu manipulieren, indem es Repräsentationsverschiebungen und spezifische VLA-Schwachstellen ausnutzt.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong JiangWed, 11 Ma🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Das Paper stellt AFRO vor, ein selbstüberwachtes Framework, das durch die Modellierung von Zustands-Aktions-Dynamiken in einem gemeinsamen latenten Raum ohne explizite geometrische Rekonstruktion oder Aktionsüberwachung dynamische Bewusstsein 3D-Repräsentationen lernt und so die Manipulationserfolgsraten von Robotern in simulierten und realen Umgebungen erheblich verbessert.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Diese Arbeit stellt mit AV-CDiT und dem AVW-4k-Datensatz das erste formale Rahmenwerk für audiovisuelle Weltmodelle vor, das synchronisierte binaurale Audio- und Visuelle-Dynamiken unter Aktionskontrolle simuliert und so die Leistung von Agenten bei der Navigation verbessert.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Die Arbeit stellt AVGGT vor, eine trainingsfreie Zwei-Schritt-Strategie, die durch die Umwandlung früher globaler Aufmerksamkeitsschichten in Frame-Attention und ein Subsampling von K/V-Tokens die Inferenzgeschwindigkeit von VGGT und $\pi^3$ um das 2- bis 10-fache steigert, ohne dabei die Genauigkeit in dichten Multi-View-Szenarien zu beeinträchtigen.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Die Arbeit stellt LiM-YOLO vor, einen optimierten Schiffserkennungs-Algorithmus für optische Fernerkundungsbilder, der durch eine Verschiebung der Pyramiden-Ebenen von P3-P5 auf P2-P4 sowie den Einsatz von GN-CBLinear die Detektionsgenauigkeit bei deutlich reduzierter Parameteranzahl und verbesserter Stabilität bei kleinen Schiffen erreicht.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Die Arbeit stellt ADHint vor, eine adaptive Methode für das Reinforcement Learning, die Schwierigkeitspriors nutzt, um Hint-Raten dynamisch anzupassen und Gradienten zu modulieren, wodurch die Stabilität des Lernens verbessert und eine bessere Balance zwischen Exploration und Imitation erreicht wird.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

Die Arbeit stellt Directional Textual Inversion (DTI) vor, eine Methode zur Personalisierung von Text-zu-Bild-Generierung, die durch die Optimierung ausschließlich der Richtungsvektoren von Embeddings auf einer hypersphärischen Mannigfaltigkeit statt ihrer Norm die Texttreue verbessert und eine kohärente Interpolation zwischen gelernten Konzepten ermöglicht.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Diese Arbeit stellt mit D²-Align ein neues Framework vor, das durch eine gerichtete Entkopplung der Belohnungssignale das Phänomen des Zusammenbruchs von Präferenzmodi (Preference Mode Collapse) in Diffusionsmodellen bekämpft und so die generative Vielfalt bei gleichzeitiger Verbesserung der menschlichen Präferenzabstimmung sicherstellt.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu LiWed, 11 Ma💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Die vorgestellte Arbeit stellt SeLop vor, eine Methode zur Generalisierung von Gesichtsfälschungserkennung, die durch orthogonale Unterraum-Interventionen in einem niedrigrangigen Repräsentationsraum spurious Korrelationen eliminiert und so robuste, fälschungsspezifische Merkmale isoliert.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie FuWed, 11 Ma💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Die Arbeit schlägt eine generalisierbare Methode zur Erkennung von KI-generierten Bildern vor, die darauf basiert, reale Bilder mit den finalen Komponenten verschiedener Generatoren zu „kontaminieren" und einen Detektor zu trainieren, der diese Manipulationen selbst bei bisher unbekannten Modellen mit einer durchschnittlichen Genauigkeit von 98,83 % zuverlässig identifiziert.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal SoumikWed, 11 Ma💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Die Arbeit stellt CLEAR-Mamba vor, ein verbessertes Framework für die Klassifizierung ophthalmischer Angiographie-Bilder, das durch eine hypernetzwerkbasierte adaptive Schicht und ein verlässlichkeitsbewusstes Vorhersageschema auf Evidenzunsicherheit die Generalisierbarkeit und Zuverlässigkeit bei der Diagnose von Netzhauterkrankungen über verschiedene Modalitäten hinweg signifikant steigert.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin OoiWed, 11 Ma🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Die Arbeit stellt mit RegionReasoner ein Reinforcement-Learning-Framework und den zugehörigen Benchmark RegionDial-Bench vor, die durch erzwungene Verankerung von Schlussfolgerungen in Bounding-Boxen sowie einen global-lokalen Konsistenz-Preis die mehrstufige visuelle Schlussfolgerung, die räumliche Verankerung und die semantische Kohärenz in großen Vision-Sprach-Modellen signifikant verbessern.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. SnoekWed, 11 Ma💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

Die Arbeit stellt WebAccessVL vor, ein visuell-linguistisches Modell, das durch eine überwachte Bild-zu-Programm-Synthese und eine verletzungsbasierte Verfeinerung automatisch HTML-Codes so anpasst, dass WCAG2-Verstöße behoben werden, während das ursprüngliche Design erhalten bleibt.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. YehWed, 11 Ma🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Die Arbeit stellt eine trainingsfreie Methode namens Test-Time Correction (TTC) vor, die durch die Kalibrierung stochastischer Zustände anhand des ersten Frames die Fehlerakkumulation bei der autoregressiven Generierung langer Videos in Echtzeit effektiv reduziert und dabei die Qualität trainingsbasierter Ansätze erreicht.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao GuoWed, 11 Ma💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

Die Arbeit stellt RoSE vor, eine neue Methode, die monokulare Normalenschätzung durch die Umformulierung als Schattierungssequenz-Schätzung mittels generativer Bild-zu-Video-Modelle verbessert und so die häufige geometrische Fehlausrichtung bestehender Ansätze überwindet.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song BaiWed, 11 Ma🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Die vorgestellte Arbeit entwickelt einen energiebewussten Rahmen für das kontinuierliche Lernen in spikenden neuronalen Netzen, der durch adaptive Spike-Budgets und replay-basierte Mechanismen sowohl die Genauigkeit als auch die Energieeffizienz bei der Verarbeitung von bildbasierten und ereignisbasierten Daten verbessert und so die praktische Einsetzbarkeit neuromorpher Visionssysteme vorantreibt.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed MiaWed, 11 Ma🤖 cs.AI

← Zurück Weiter →