OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

이 논문은 원격 탐사 비전 - 언어 모델 (RSVLM) 의 성능을 종합적으로 평가하기 위해 지리 공간적 맥락, 다양한 데이터 소스, 그리고 언어적 편향을 줄이기 위한 엄격한 프로토콜을 포함한 새로운 벤치마크 'OmniEarth'를 제안하고 기존 모델들의 한계를 분석합니다.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

MORE-R1: Guiding LVLM for Multimodal Object-Entity Relation Extraction via Stepwise Reasoning with Reinforcement Learning

이 논문은 강화 학습을 통해 단계별 추론 능력을 향상시킨 새로운 모델 MORE-R1 을 제안하여, 기존 방법들의 한계를 극복하고 멀티모달 객체 - 개체 관계 추출 (MORE) 작업에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Xiang Yuan, Xu Chu, Xinrong Chen, Haochen Li, Zonghong Dai, Hongcheng Fan, Xiaoyue Yuan, Weiping Li, Tong MoWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

이 논문은 기존 비전 - 언어 모델의 계산 비효율성을 해결하기 위해 훈련 없이 실행 가능한 'PruneSID'를 제안하며, 의미적 중요도와 다양성을 시너지적으로 고려한 두 단계 토큰 압축 기법을 통해 극단적인 토큰 감소율에서도 최첨단 성능과 빠른 처리 속도를 달성함을 보여줍니다.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

본 논문은 자유로운 손으로 그린 스케치를 사실적인 이미지로 변환하는 과제를 해결하기 위해, 구성 요소별 특징을 포착하는 자기주의 인코딩과 좌표 보존 융합 모듈을 활용한 2 단계 프레임워크를 제안하여 기존 GAN 및 확산 모델보다 뛰어난 이미지 충실도와 의미론적 정확도를 달성함을 보여줍니다.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

이 논문은 기존 비디오 생성 모델의 실시간 스트리밍 한계를 극복하기 위해 시간적 맥락을 효과적으로 활용하고 비대칭적 생성 전략을 도입한 '대각선 증류 (Diagonal Distillation)' 기법을 제안하여, 5 초 분량의 비디오를 2.61 초 (초당 31 프레임) 내에 생성하며 기존 모델 대비 277.3 배의 속도 향상을 달성했다고 요약할 수 있습니다.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Towards Viewpoint-centric Artifact-based Regulatory Requirements Engineering for Compliance by Design

이 논문은 소프트웨어 공학에서 규제 준수를 설계 단계에 통합하기 위해 다양한 관점과 산출물을 중심으로 한 '규제 요구사항 공학을 위한 산출물 모델 (AM4RRE)'을 제안하고, 이를 통해 체계적인 규제 요구사항 공학 프로세스 구축을 위한 향후 연구 방향에 대한 피드백을 구하고 있습니다.

Oleksandr KosenkovWed, 11 Ma💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

이 논문은 조직 및 작업 다양성으로 인한 한계를 극복하기 위해 언어 기반 채널 선택과 언어 기반 하이퍼 집계 메커니즘을 도입하여 로봇 보조 최소 침습 수술 비디오 이해를 위한 다작업 연합 학습 프레임워크인 SurgFed 를 제안하고, 다양한 공개 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

이 논문은 자율주행용 비전 - 언어 모델 (VLM) 이 응답의 불일치와 시간적 추론 부족이라는 한계를 겪고 있음을 지적하고, 이를 해결하기 위해 미래 장면 추론을 평가하는 'FutureVQA' 벤치마크와 시간 레이블 없이도 일관성과 추론 능력을 향상시키는 자기지도 학습 기법을 제안합니다.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks

이 논문은 복잡한 비마르코프적 장기 작업 수행을 위해 LLM 기반의 'RuleSafe' 시뮬레이션 벤치마크를 제안하고, 과거 상태의 이산적 잠재 토큰을 인코딩하여 장기 계획과 일반화 능력을 향상시키는 'VQ-Memory' 모델을 개발했습니다.

Wang Honghui, Jing Zhi, Ao Jicong, Song Shiji, Li Xuelong, Huang Gao, Bai ChenjiaWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

이 논문은 장기적 의존성과 미세한 경계 세부 사항을 모두 효과적으로 모델링하기 위해 차별화된 교차 어텐션 (DCA) 과 채널 - 공간 특징 융합 (CSFF) 전략을 도입하여 계산 복잡성을 줄이고 분별력 있는 구조를 강조하는 새로운 의료 영상 분할 프레임워크인 DCAU-Net 을 제안합니다.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Dynamic Multimodal Expression Generation for LLM-Driven Pedagogical Agents: From User Experience Perspective

이 논문은 대규모 언어 모델 (LLM) 을 활용하여 교육 콘텐츠의 의미적 맥락에 맞춰 말과 제스처를 동적으로 생성하는 교수 에이전트 방식을 제안하고, 가상현실 환경에서의 사용자 경험 평가를 통해 학습 효과, 몰입도, 사회적 존재감 향상 및 피로감 감소에 유의미한 효과가 있음을 입증했습니다.

Ninghao Wan, Jiarun Song, Fuzheng YangWed, 11 Ma💻 cs

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

이 논문은 대규모 교차 멀티모달 데이터셋 없이도 기존 통합 모델을 강화학습 기반의 그룹 상대적 정책 최적화 (GRPO) 를 통해 시각적 스토리텔링 및 단계별 추론과 같은 멀티모달 교차 생성 능력을 갖춘 모델로 진화시키는 새로운 후속 훈련 전략을 제안합니다.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

이 논문은 동적 인간 환경에서의 embodied question answering (EQA) 과제를 위해 인간 활동과 시간적 변화를 포함한 'DynHiL-EQA' 데이터셋을 제안하고, 모호한 관측을 검증하고 정보성 있는 증거만 선택적으로 기억에 저장하는 훈련 없는 'DIVRR' 프레임워크를 통해 occlusion 상황에서의 강건성과 추론 효율성을 동시에 향상시켰습니다.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

NS-VLA: Towards Neuro-Symbolic Vision-Language-Action Models

이 논문은 온라인 강화학습을 통해 심볼릭 인코더와 솔버를 도입하여 데이터 효율성, 제로샷 일반화 능력, 그리고 탐색 범위를 동시에 개선한 새로운 신경-심볼릭 비전 - 언어 - 행동 (NS-VLA) 프레임워크를 제안하고 로봇 조작 벤치마크에서 기존 방법보다 우수한 성능을 입증합니다.

Ziyue Zhu, Shangyang Wu, Shuai Zhao, Zhiqiu Zhao, Shengjie Li, Yi Wang, Fang Li, Haoran LuoWed, 11 Ma💻 cs