HiconAgent: History Context-aware Policy Optimization for GUI Agents

이 논문은 불필요한 정보로 인한 계산 오버헤드를 줄이면서도 역사적 맥락을 효과적으로 활용하기 위해 동적 맥락 샘플링과 앵커 기반 역사 압축을 결합한 'HiconAgent'를 제안하고, 이를 통해 더 작은 모델로도 기존 최첨단 모델보다 뛰어난 성능과 효율성을 달성함을 보여줍니다.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

이 논문은 이해와 생성 능력을 통합하고 오디오 - 비디오 융합을 최적화하기 위해 '지휘자 - 창작자' 아키텍처와 AR-확산 모델을 결합한 다중 모달 대화 프레임워크 MAViD 를 제안하여 자연스럽고 일관된 장기간 대화형 오디오 - 비디오 생성을 가능하게 합니다.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

이 논문은 비전 대규모 언어 모델 (VLLM) 의 깊은 층에서 기존 토큰 가지치기 방법이 무작위 제거보다 성능이 떨어지는 '정보의 소멸' 현상을 규명하고, 시각적 정보의 유효 깊이를 기반으로 무작위 가지치기를 결합한 새로운 전략을 제안하여 성능을 유지하면서 추론 효율을 극대화함을 보여줍니다.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

이 논문은 가림, 빠른 운동, 장기 재진입과 같은 수술 장면의 어려움으로 인해 SAM3 의 성능이 제한되는 문제를 해결하기 위해, 관련성 기반 메모리 필터링, 메모리 용량 확장, 그리고 재식별 모듈을 포함한 훈련 없는 ReMeDI-SAM3 을 제안하여 EndoVis 및 CholecSeg8k 데이터셋에서 기존 방법보다 우수한 분할 정확도를 달성함을 보여줍니다.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

이 논문은 전 세계 5 개국 1,000 명의 설문과 거리 영상 데이터를 분석하여 도시 녹지에 대한 주관적 인식과 객관적 측정치 간의 불일치를 규명하고, 인구통계학적·성격적 요인보다 거주 지역의 문화적·환경적 배경이 인식 차이를 설명하는 가장 중요한 요인임을 밝혔습니다.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

이 논문은 단일 이미지 기반 3D 의미 장면 완성 (SSC) 작업에서 가시 영역의 고신뢰도 인식과 가려진 영역의 추론 간 간섭 문제를 해결하기 위해, 가시 영역 라벨 추출 전략과 가시 - 가려진 영역 상호작용을 활용한 이중 디코더 네트워크 (VOIC) 를 제안하여 기존 방법보다 우수한 성능을 달성함을 보여줍니다.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

이 논문은 2D 패치 추출과 하이브리드 스캐닝을 활용한 다중 헤드 선택적 상태 공간 모델 (MHSSM) 과 경량 채널 MLP 를 결합하여, 기존 딥러닝 기반 MRI 초해상도 방법들보다 압도적으로 적은 계산 비용으로 높은 정확도와 해부학적 세부 정보를 유지하는 효율적인 프레임워크를 제안합니다.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

이 논문은 자율주행 생성형 월드 모델의 발전을 촉진하기 위해 다양한 평가 데이터셋과 시각적 사실성, 궤적 타당성, 시간적 일관성, 제어 가능성 등을 종합적으로 측정하는 새로운 메트릭을 포함한 포괄적인 벤치마크 'DrivingGen'을 제안합니다.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

이 논문은 Swin Transformer 비전 인코더와 시퀀스 - 시퀀스 언어 디코더를 통합한 경량 2 단계 멀티태스크 프레임워크를 제안하여 작물 질병 시각적 질문 응답 (VQA) 에서 높은 정확도와 설명 가능성을 달성하고 PlantVillageVQA 벤치마크에서도 우수한 일반화 성능을 입증했습니다.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

이 논문은 의료 영상 분석을 위해 라우팅, 검색, 반성, 수리를 수행하는 4 단계 에이전트 프레임워크인 R^4 를 제안하여, 미세 조정 없이도 대형 비전 - 언어 모델의 추론 정확도와 공간적 근거력을 크게 향상시킨다는 것을 보여줍니다.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

이 논문은 시각 생성 AI 모델의 학습 데이터 선별에 널리 사용되는 'LAION-Aesthetics Predictor'를 감사 및 추적 민속지학적 방법으로 분석한 결과, 해당 모델이 서구 중심의 미적 기준과 성별 편향을 반영하여 여성, LGBTQ+ 및 비서구 예술을 배제하는 등 대표성 해악을 재생산함을 규명하고, 이를 극복하기 위해 더 다양하고 포용적인 평가 체계로의 전환을 촉구하고 있습니다.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

이 논문은 모바일 기기에서 실시간으로 고품질 비디오를 생성할 수 있도록 효율적인 어텐션 메커니즘과 샌드위치 구조, 그리고 2-in-1 증류 프레임워크를 도입한 'S2DiT'를 제안하여 서버급 성능을 iPhone 에서 초당 10 프레임 이상으로 구현한 연구입니다.

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

이 논문은 비전-프로프리오셉션 불균형으로 인한 '잘못된 완료 (False Completion)' 문제를 해결하기 위해, 작업 단계 관찰자를 통해 시각적 단서를 적응적으로 조절하는 새로운 VLA 프레임워크인 ReViP 를 제안하고, 이를 통해 기존 모델 대비 성공률을 26% 향상시켰음을 입증합니다.

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

이 논문은 자율주행 시나리오에서 비전 - 언어 모델 (VLM) 의 성능을 평가하기 위해 3,847 시간 분량의 주행 영상과 다중 세분화 주석을 기반으로 구축된 대규모 벤치마크 'ScenePilot-Bench'를 소개하고, 이를 통해 모델의 현재 한계와 개선 방향을 규명합니다.

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

이 논문은 기존 캐싱 방법의 한계를 극복하고 Jacobian-벡터 곱을 활용한 평균 속도 관점과 궤적 안정성 스케줄링 전략을 통해 FLUX.1 및 HunyuanVideo 등 다양한 모델에서 고품질 생성을 유지하면서 3.5 배 이상 가속화를 실현하는 훈련 불필요한 MeanCache 프레임워크를 제안합니다.

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG