V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

이 논문은 LVLM 의 패치 토큰 표현에 내재된 의미적 얽힘 문제를 해결하기 위해, 전역 문맥을 억제하고 해리된 지역적 의미 정보를 유지하는 '가치 (Value) 특징'을 표적으로 하는 정밀한 제어형 적대적 공격 기법인 V-Attack 을 제안하고, 이를 통해 기존 최첨단 방법 대비 평균 36% 높은 공격 성공률을 달성함을 보여줍니다.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

본 논문은 로봇 조작 작업의 성능 향상을 위해 상태-행동-상태 동역학을 모델링하고 명시적 기하학적 재구성을 배제하여 자기지도식 3D 표현을 학습하는 새로운 프레임워크인 AFRO 를 제안하고, 이를 통해 다양한 시뮬레이션 및 실세계 작업에서 기존 방법보다 우수한 조작 성공률을 달성함을 보여줍니다.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

Audio-Visual World Models: Towards Multisensory Imagination in Sight and Sound

이 논문은 시각과 청각 정보를 통합한 최초의 공식적인 오디오 - 비주얼 월드 모델 (AVWM) 프레임워크를 제안하고, 이를 위해 새로운 데이터셋 AVW-4k 와 3 단계 학습 전략을 갖춘 AV-CDiT 모델을 개발하여 멀티모달 미래 상태 예측 및 내비게이션 성능을 크게 향상시켰음을 보여줍니다.

Jiahua Wang, Leqi Zheng, Jialong Wu, Yaoxin MaoWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

이 논문은 VGGT 와 π3\pi^3 모델의 글로벌 어텐션 역할을 분석하여 초기 층을 프레임 어텐션으로 변환하고 K/V 를 서브샘플링하는 훈련 없는 2 단계 가속화 기법을 제안함으로써, 기존 희소 어텐션 방식이 실패하는 고밀도 다중 뷰 환경에서도 정확도를 유지하면서 최대 10 배까지 추론 속도를 획기적으로 향상시켰습니다.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

이 논문은 위성 영상 내 선박 검출의 극심한 크기 차이와 높은 종횡비 문제를 해결하기 위해, 기존 YOLO 아키텍처의 피라미드 레벨을 P3-P5 에서 P2-P4 로 전환하고 그룹 정규화를 적용하여 정확도와 효율성을 동시에 극대화한 'LiM-YOLO'를 제안합니다.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

이 논문은 강화학습의 학습 안정성과 효율성을 높이기 위해 샘플 난이도를 기반으로 힌트 비율을 동적으로 조정하고, 일관성 기반 그래디언트 조절과 롤아웃 난이도 사후확률을 활용한 이점 추정을 도입한 'ADHint'라는 새로운 방법을 제안합니다.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang YangWed, 11 Ma🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

이 논문은 인간 선호도 기반 강화학습을 통한 텍스트-이미지 생성 모델의 '선호도 모드 붕괴 (Preference Mode Collapse)' 현상을 규명하고, 이를 해결하기 위해 보상 신호를 방향적으로 보정하여 생성 다양성을 유지하는 새로운 프레임워크인 '방향성 분해 정렬 (D²-Align)'을 제안합니다.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu LiWed, 11 Ma💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

이 논문은 단일 모드, 미세 병변 패턴, 장비 간 편차로 인한 한계를 극복하기 위해 하이퍼네트워크 기반 적응적 조건부 레이어 (HaC) 와 증거 불확실성 학습 기반 신뢰성 예측 체계 (RaP) 를 도입한 CLEAR-Mamba 프레임워크를 제안하여, FFA 및 ICGA 영상을 포함한 대규모 안과 혈관조영 데이터셋에서 기존 모델보다 뛰어난 분류 성능과 신뢰성을 입증했습니다.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin OoiWed, 11 Ma🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

이 논문은 다중 턴 시각 추론을 위한 새로운 벤치마크 'RegionDial-Bench'를 제안하고, 각 추론 단계에서 명시적인 바운딩 박스 인용과 전역 - 지역 일관성 보상을 통해 강화 학습을 수행하는 'RegionReasoner' 프레임워크를 소개함으로써 시각적 추론의 정확성과 공간적 근거 능력을 획기적으로 향상시킵니다.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. SnoekWed, 11 Ma💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

이 논문은 웹 콘텐츠 접근성 가이드라인 (WCAG2) 위반 사항을 자동으로 수정하면서도 원본 디자인을 유지하는 비전 - 언어 모델 'WebAccessVL'을 제안하고, 위반 조건을 입력으로 활용하는 반복적 개선 전략을 통해 기존 모델 대비 접근성 오류를 87% 이상 감소시킨 효과를 입증했습니다.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. YehWed, 11 Ma🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

이 논문은 증류된 자기회귀 모델의 장기간 비디오 생성 시 발생하는 오류 누적을 해결하기 위해, 초기 프레임을 안정적 기준점으로 활용하여 샘플링 경로를 보정하는 훈련 없는 '테스트 시간 보정 (TTC)' 방법을 제안하고, 이를 통해 30 초 길이의 비디오 생성에서 기존 훈련 기반 방법과媲美하는 품질을 낮은 오버헤드로 달성함을 입증합니다.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao GuoWed, 11 Ma💻 cs

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

이 논문은 기존 방법론이 간과했던 정확도와 에너지 효율성의 동시 최적화를 위해 경험 재생, 가변적 누적 - 적분 - 방출 뉴런 매개변수, 적응형 스파이크 스케줄러를 통합한 에너지 인식 스파이크 예산 관리 프레임워크를 제안하여, 프레임 기반 및 이벤트 기반 데이터셋 모두에서 지속적 학습 성능을 향상시키고 동적 전력 소비를 최소화하는 뉴로모픽 비전 시스템의 실용성을 입증합니다.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed MiaWed, 11 Ma🤖 cs.AI