cs.CV articoli | Gist.Science

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Il paper propone SPAN, un metodo innovativo per la rilevazione 3D da monoculare che migliora la coerenza geometrica e le prestazioni integrando allineamento spaziale e di proiezione 3D-2D con una strategia di apprendimento gerarchico per correggere le limitazioni dei paradigmi di predizione disaccoppiati.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming YangWed, 11 Ma💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Il paper introduce MediRound, un modello e un nuovo dataset (MR-MedSeg) per la segmentazione medica basata su ragionamento multi-round a livello di entità, che supera i limiti dei metodi tradizionali a dialogo singolo attraverso un meccanismo di giudizio e correzione per mitigare la propagazione degli errori.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming LuWed, 11 Ma🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Il paper propone l'Adaptive Diversity Cache (ADC), un modulo plug-and-play privo di addestramento che mitiga il bias a lunga coda nella rilevazione delle interazioni uomo-oggetto (HOI) accumulando rappresentazioni di feature diversificate e adattando dinamicamente la capacità di archiviazione per migliorare la rilevazione delle categorie rare senza richiedere ulteriore ottimizzazione.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong LiWed, 11 Ma🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Il paper presenta V-Attack, un nuovo metodo di attacco avversario per i Large Vision-Language Models che supera i limiti delle tecniche esistenti agendo direttamente sulle caratteristiche "value" disaccoppiate per ottenere un controllo semantico locale preciso e significativo.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Il paper presenta UPA-RFAS, un framework unificato che genera patch fisiche universali e trasferibili per attaccare modelli Vision-Language-Action in scenari black-box, sfruttando obiettivi nello spazio delle feature, un processo min-max robusto e perdite specifiche per il dominio VLA per garantire il successo dell'attacco su diverse architetture e compiti.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong JiangWed, 11 Ma🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Il paper introduce AFRO, un framework auto-supervisionato che apprende rappresentazioni 3D consapevoli della dinamica robotica senza supervisione sulle azioni o sulla ricostruzione geometrica, migliorando significativamente il successo nelle attività di manipolazione rispetto ai metodi di pre-addestramento esistenti.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

Questo lavoro introduce il primo quadro formale per i modelli di mondo audiovisivi, presentando il dataset AVW-4k e il modello AV-CDiT per simulare dinamiche ambientali sincronizzate in audio e video, dimostrando miglioramenti significativi nelle prestazioni di navigazione continua.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Il paper AVGGT propone uno schema di accelerazione senza addestramento per i modelli VGGT e $\pi^3$ , basato su un'analisi dei ruoli dei livelli di attenzione globale che permette di ottenere un significativo aumento della velocità di inferenza (fino a 10 volte) mantenendo o migliorando la precisione in scenari multi-vista densi.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Il paper presenta LiM-YOLO, un rilevatore di navi ottimizzato per immagini satellitari che migliora accuratezza ed efficienza attraverso uno spostamento dei livelli della piramide delle caratteristiche da P3-P5 a P2-P4 e l'uso di normalizzazione a gruppi, risolvendo così le sfide poste dalla grande disparità di scala e dai rapporti d'aspetto elevati dei bersagli marittimi.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Il paper presenta ADHint, un metodo di apprendimento per rinforzo che integra dinamicamente le difficoltà dei campioni e dei roll-out nella pianificazione degli indizi e nella stima del vantaggio, migliorando così l'efficienza dei campioni, la stabilità dell'addestramento e la capacità di generalizzazione del ragionamento.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

Il paper propone la Directional Textual Inversion (DTI), un metodo che ottimizza solo la direzione degli embedding su una ipersfera unitaria per correggere l'inflazione della norma che compromette la fedeltà del prompt nella personalizzazione testo-immagine, migliorando al contempo l'interpolazione semantica rispetto alle tecniche tradizionali.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung ShimWed, 11 Ma🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Questo lavoro introduce il benchmark DivGenBench per quantificare il collasso delle modalità di preferenza nei modelli di diffusione e propone D²-Align, un nuovo framework di allineamento che mitiga tale fenomeno correggendo direzionalmente il segnale di ricompensa per preservare la diversità generativa.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu LiWed, 11 Ma💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Il paper propone SeLop, un metodo di intervento ortogonale a basso rango che, rimuovendo le correlazioni spurie irrilevanti dallo spazio delle rappresentazioni, risolve il problema della generalizzazione nella rilevazione di falsificazioni facciali ottenendo prestazioni all'avanguardia con un numero ridotto di parametri.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie FuWed, 11 Ma💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Il paper propone un nuovo metodo per rilevare immagini generate dall'IA sfruttando i componenti finali condivisi dalle architetture dei generatori, che, contaminando le immagini reali con tali componenti e addestrando un rilevatore su DINOv3, ottiene un'accuratezza media del 98,83% su generatori mai visti prima.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal SoumikWed, 11 Ma💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Il paper presenta CLEAR-Mamba, un framework avanzato basato su MedMamba che integra un layer di condizionamento adattivo (HaC) e un meccanismo di previsione affidabile (RaP) per migliorare l'accuratezza, l'adattabilità e l'affidabilità nella classificazione multi-sequenza di angiografie oftalmiche FFA e ICGA, superando le limitazioni delle metodologie esistenti grazie a un nuovo dataset su larga scala.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin OoiWed, 11 Ma🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Il paper introduce RegionReasoner, un framework di apprendimento per rinforzo che migliora il ragionamento visivo multi-round attraverso un nuovo benchmark (RegionDial-Bench) e un meccanismo di ricompensa che garantisce la coerenza semantica globale e locale insieme a un grounding esplicito basato su regioni.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. SnoekWed, 11 Ma💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

Il paper presenta WebAccessVL, un modello visione-linguaggio supervisionato che corregge automaticamente le violazioni delle linee guida di accessibilità WCAG2 nel codice HTML dei siti web, preservando il design originale e riducendo drasticamente gli errori rispetto agli approcci esistenti.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. YehWed, 11 Ma🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Il paper introduce la Correzione in Tempo di Test (TTC), un metodo privo di addestramento che utilizza il primo frame come riferimento stabile per correggere l'accumulo di errori nella generazione di video lunghi tramite modelli autoregressivi distillati, ottenendo risultati di alta qualità con un costo computazionale trascurabile.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao GuoWed, 11 Ma💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

Il paper presenta RoSE, un metodo innovativo che supera i limiti di allineamento 3D delle tecniche esistenti per la stima delle normali monoculare riformulando il problema come stima di sequenze di ombreggiatura tramite modelli generativi video, ottenendo così prestazioni state-of-the-art su dataset reali.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song BaiWed, 11 Ma🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Il paper propone un framework di budgeting degli spike consapevole dell'energia per l'apprendimento continuo nelle reti neurali a impulsi, che integra replay esperienziale e parametri neuronali adattivi per migliorare l'accuratezza e ridurre il consumo energetico sia su dataset basati su frame che su eventi.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed MiaWed, 11 Ma🤖 cs.AI

← Precedente Successivo →