cs.CV papers | Gist.Science

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Dit paper introduceert SPAN, een methode die de geometrische consistentie en prestaties van monokulaire 3D-objectdetectie verbetert door decoupled regressie aan te vullen met ruimtelijke projectie-uitlijning en hiërarchisch taakleren.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming YangWed, 11 Ma💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Dit paper introduceert MediRound, een model en dataset voor multi-rond medische segmentatie met entiteitsgebaseerd redenering, dat foutenpropagatie aanpakt en beter presteert dan bestaande methoden in medische educatieve scenario's.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming LuWed, 11 Ma🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Deze paper introduceert de Adaptive Diversity Cache (ADC), een trainingsvrije en plug-and-play module die de langstaartbias in mens-objectinteractie-detectie vermindert door tijdens de inferentie adaptieve, diverse kenmerken op te slaan, waardoor zeldzame interacties op de HICO-DET en V-COCO-datasets aanzienlijk worden verbeterd zonder extra rekencapaciteit.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong LiWed, 11 Ma🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Deze paper introduceert V-Attack, een nieuwe methode die de vaak verwaarloosde 'value features' in transformer-modellen target om semantisch verstrengelde beeldrepresentaties te omzeilen en zo nauwkeurig beheersbare adversariële aanvallen op Large Vision-Language Models mogelijk te maken.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Dit artikel introduceert UPA-RFAS, een uniek raamwerk voor universele en overdraagbare adversariële patch-aanvallen op Vision-Language-Action-modellen die effectief zijn over verschillende architecturen, taken en fysieke uitvoeringen heen.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong JiangWed, 11 Ma🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Dit paper introduceert AFRO, een zelftoezichtend framework dat dynamische 3D-voorstellingen leert door generatieve diffusie en omgekeerde dynamica te combineren, waardoor robuustere robotmanipulatie wordt bereikt zonder expliciete reconstructie- of actielabels.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Dit paper introduceert het eerste formele kader voor audio-visuele wereldmodellen, inclusief het AVW-4k dataset en het AV-CDiT-model, om agents in staat te stellen toekomstige multimodale toestanden te simuleren en zo hun prestaties bij navigatie significant te verbeteren.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Dit paper introduceert AVGGT, een trainingsvrije tweestapsversnelling die de globale aandacht in VGGT en $\pi^3$ analyseert en optimaliseert door vroege lagen om te zetten in frame-aandacht en latere lagen te subsamplen, wat leidt tot een aanzienlijke versnelling van de inferentie (tot 10x) zonder in te leveren op nauwkeurigheid.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Dit paper introduceert LiM-YOLO, een gestroomlijnde objectdetector die de prestaties van scheepsdetectie in optische satellietbeelden verbetert door een verschuiving van de piramide-niveaus (van P3-P5 naar P2-P4) en het gebruik van genormaliseerde hulpvertakkingen, waardoor een betere balans tussen nauwkeurigheid en efficiëntie wordt bereikt.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

ADHint is een nieuwe methode voor versterkingsleren die de beperkte schaalbaarheid en lage sample-efficiëntie aanpakt door moeilijkheidsgraden expliciet te integreren in het plannen van hints en de schatting van voordelen, waardoor een betere balans tussen exploratie en imitatie wordt bereikt en superieure redeneervermogens worden gerealiseerd.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

Dit paper introduceert Directional Textual Inversion (DTI), een methode die de norm van embeddings fixeert en uitsluitend de richting optimaliseert om de tekstgetrouwheid en interpolatiemogelijkheden bij gepersonaliseerde tekst-naar-beeldgeneratie te verbeteren.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Deze paper introduceert D²-Align, een nieuw raamwerk dat 'Preference Mode Collapse' in diffusion modellen voor menselijke voorkeursuitlijning aanpakt door de beloningssignalen directioneel te decoupleren, waardoor zowel de kwaliteit als de diversiteit van de gegenereerde afbeeldingen wordt verbeterd.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu LiWed, 11 Ma💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Dit paper introduceert SeLop, een methode die het generalisatieprobleem bij het detecteren van gezichtsfake-oplossingen aanpakt door spurious correlaties te elimineren via orthogonale projectie op een laag-rang deelruimte, waardoor een robuustere en generaliseerbaardere detector ontstaat met slechts 0,39M trainbare parameters.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie FuWed, 11 Ma💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Dit paper introduceert een detectiemethode voor door AI gegenereerde afbeeldingen die gebruikmaakt van de gedeelde eindcomponenten van generatoren om echte afbeeldingen te 'verontreinigen' en zo een detector te trainen die met hoge nauwkeurigheid generaliseert naar onbekende generatormodellen.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal SoumikWed, 11 Ma💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Het paper introduceert CLEAR-Mamba, een geoptimaliseerd raamwerk dat hypernetwerk-gebaseerde adaptieve conditionering en betrouwbaarheidsbewuste voorspelling combineert om de nauwkeurigheid, generalisatie en betrouwbaarheid van de classificatie van oogangiografie-beelden (FFA en ICGA) te verbeteren.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin OoiWed, 11 Ma🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Dit paper introduceert RegionReasoner, een versterkingsleerframework dat multi-round visuele redenering verbetert door grondige referenties aan objecten en globale-lokale semantische consistentie te eisen, vergezeld van een nieuw benchmark genaamd RegionDial-Bench voor systematische evaluatie.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. SnoekWed, 11 Ma💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

Dit artikel introduceert WebAccessVL, een visueel-taalmodel dat automatisch HTML-codes aanpast om WCAG2-toegankelijkheidsproblemen op te lossen terwijl het oorspronkelijke ontwerp behouden blijft, wat resulteert in een aanzienlijke reductie van schendingen en een verbeterde visuele consistentie.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. YehWed, 11 Ma🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Dit paper introduceert Test-Time Correction (TTC), een trainingsvrije methode die autoregressieve lange video-generatie verbetert door het gebruik van het eerste frame als stabiel anker om drift te corrigeren, waardoor hoge kwaliteit op lange duur wordt bereikt zonder de kosten van training.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao GuoWed, 11 Ma💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

Dit paper introduceert RoSE, een nieuwe methode die monokulaire normaalenschattingsproblemen omvormt tot het schatten van schaduwsequenties via beeld-naar-video-generatieve modellen om zo de veelvoorkomende 3D-misalignatie van bestaande methoden te overwinnen en state-of-the-art resultaten te behalen.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song BaiWed, 11 Ma🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Deze paper introduceert een energiebewust spike-budgeteringskader voor continue learning in spiking neural networks dat, door ervaringen te herhalen en neuronparameters aan te passen, zowel de nauwkeurigheid verbetert als het energieverbruik verlaagt voor zowel frame-gebaseerde als event-gebaseerde neuromorfe visiesystemen.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed MiaWed, 11 Ma🤖 cs.AI

← Vorige Volgende →