Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Il paper propone l'Adaptive Diversity Cache (ADC), un modulo plug-and-play privo di addestramento che mitiga il bias a lunga coda nella rilevazione delle interazioni uomo-oggetto (HOI) accumulando rappresentazioni di feature diversificate e adattando dinamicamente la capacità di archiviazione per migliorare la rilevazione delle categorie rare senza richiedere ulteriore ottimizzazione.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong LiWed, 11 Ma🤖 cs.AI

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Il paper presenta UPA-RFAS, un framework unificato che genera patch fisiche universali e trasferibili per attaccare modelli Vision-Language-Action in scenari black-box, sfruttando obiettivi nello spazio delle feature, un processo min-max robusto e perdite specifiche per il dominio VLA per garantire il successo dell'attacco su diverse architetture e compiti.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong JiangWed, 11 Ma🤖 cs.AI

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Il paper introduce AFRO, un framework auto-supervisionato che apprende rappresentazioni 3D consapevoli della dinamica robotica senza supervisione sulle azioni o sulla ricostruzione geometrica, migliorando significativamente il successo nelle attività di manipolazione rispetto ai metodi di pre-addestramento esistenti.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Il paper AVGGT propone uno schema di accelerazione senza addestramento per i modelli VGGT e π3\pi^3, basato su un'analisi dei ruoli dei livelli di attenzione globale che permette di ottenere un significativo aumento della velocità di inferenza (fino a 10 volte) mantenendo o migliorando la precisione in scenari multi-vista densi.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Il paper presenta LiM-YOLO, un rilevatore di navi ottimizzato per immagini satellitari che migliora accuratezza ed efficienza attraverso uno spostamento dei livelli della piramide delle caratteristiche da P3-P5 a P2-P4 e l'uso di normalizzazione a gruppi, risolvendo così le sfide poste dalla grande disparità di scala e dai rapporti d'aspetto elevati dei bersagli marittimi.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Il paper presenta ADHint, un metodo di apprendimento per rinforzo che integra dinamicamente le difficoltà dei campioni e dei roll-out nella pianificazione degli indizi e nella stima del vantaggio, migliorando così l'efficienza dei campioni, la stabilità dell'addestramento e la capacità di generalizzazione del ragionamento.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Questo lavoro introduce il benchmark DivGenBench per quantificare il collasso delle modalità di preferenza nei modelli di diffusione e propone D²-Align, un nuovo framework di allineamento che mitiga tale fenomeno correggendo direzionalmente il segnale di ricompensa per preservare la diversità generativa.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu LiWed, 11 Ma💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Il paper presenta CLEAR-Mamba, un framework avanzato basato su MedMamba che integra un layer di condizionamento adattivo (HaC) e un meccanismo di previsione affidabile (RaP) per migliorare l'accuratezza, l'adattabilità e l'affidabilità nella classificazione multi-sequenza di angiografie oftalmiche FFA e ICGA, superando le limitazioni delle metodologie esistenti grazie a un nuovo dataset su larga scala.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin OoiWed, 11 Ma🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Il paper introduce la Correzione in Tempo di Test (TTC), un metodo privo di addestramento che utilizza il primo frame come riferimento stabile per correggere l'accumulo di errori nella generazione di video lunghi tramite modelli autoregressivi distillati, ottenendo risultati di alta qualità con un costo computazionale trascurabile.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao GuoWed, 11 Ma💻 cs