UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

이 논문은 기존 심층 전개 네트워크의 한계를 극복하기 위해 다중 입자도 열화 인식 모듈과 잠재 확산 모델 기반의 사전 지식을 결합하여, 블라인드 이미지 복원 작업에서 열화 제거와 고주파 텍스처 복원을 동시에 수행하는 UnfoldLDM 을 제안합니다.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

이 논문은 오프더셸 대형 모델의 추론 및 구성 능력을 활용하여 'Yo'City'라는 새로운 에이전트 프레임워크를 제안함으로써, 사용자의 맞춤형 요구를 반영하고 무한히 확장 가능한 사실적인 3D 도시 장면을 생성하는 방법을 제시합니다.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

이 논문은 2D 마이크로 CT 슬라이스를 기반으로 한 심층 학습 파이프라인 'ForamDeepSlice'를 제안하여 27 종의 유공충을 95.64% 의 높은 정확도로 자동 분류하고, 실시간 분류 및 3D 슬라이스 매칭을 지원하는 대시보드를 개발함으로써 AI 기반 미고생물학 식별의 새로운 기준을 제시합니다.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

HiconAgent: History Context-aware Policy Optimization for GUI Agents

이 논문은 불필요한 정보로 인한 계산 오버헤드를 줄이면서도 역사적 맥락을 효과적으로 활용하기 위해 동적 맥락 샘플링과 앵커 기반 역사 압축을 결합한 'HiconAgent'를 제안하고, 이를 통해 더 작은 모델로도 기존 최첨단 모델보다 뛰어난 성능과 효율성을 달성함을 보여줍니다.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

이 논문은 이해와 생성 능력을 통합하고 오디오 - 비디오 융합을 최적화하기 위해 '지휘자 - 창작자' 아키텍처와 AR-확산 모델을 결합한 다중 모달 대화 프레임워크 MAViD 를 제안하여 자연스럽고 일관된 장기간 대화형 오디오 - 비디오 생성을 가능하게 합니다.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

이 논문은 비전 대규모 언어 모델 (VLLM) 의 깊은 층에서 기존 토큰 가지치기 방법이 무작위 제거보다 성능이 떨어지는 '정보의 소멸' 현상을 규명하고, 시각적 정보의 유효 깊이를 기반으로 무작위 가지치기를 결합한 새로운 전략을 제안하여 성능을 유지하면서 추론 효율을 극대화함을 보여줍니다.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

이 논문은 가림, 빠른 운동, 장기 재진입과 같은 수술 장면의 어려움으로 인해 SAM3 의 성능이 제한되는 문제를 해결하기 위해, 관련성 기반 메모리 필터링, 메모리 용량 확장, 그리고 재식별 모듈을 포함한 훈련 없는 ReMeDI-SAM3 을 제안하여 EndoVis 및 CholecSeg8k 데이터셋에서 기존 방법보다 우수한 분할 정확도를 달성함을 보여줍니다.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

이 논문은 전 세계 5 개국 1,000 명의 설문과 거리 영상 데이터를 분석하여 도시 녹지에 대한 주관적 인식과 객관적 측정치 간의 불일치를 규명하고, 인구통계학적·성격적 요인보다 거주 지역의 문화적·환경적 배경이 인식 차이를 설명하는 가장 중요한 요인임을 밝혔습니다.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

이 논문은 단일 이미지 기반 3D 의미 장면 완성 (SSC) 작업에서 가시 영역의 고신뢰도 인식과 가려진 영역의 추론 간 간섭 문제를 해결하기 위해, 가시 영역 라벨 추출 전략과 가시 - 가려진 영역 상호작용을 활용한 이중 디코더 네트워크 (VOIC) 를 제안하여 기존 방법보다 우수한 성능을 달성함을 보여줍니다.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Efficient Vision Mamba for MRI Super-Resolution via Hybrid Selective Scanning

이 논문은 2D 패치 추출과 하이브리드 스캐닝을 활용한 다중 헤드 선택적 상태 공간 모델 (MHSSM) 과 경량 채널 MLP 를 결합하여, 기존 딥러닝 기반 MRI 초해상도 방법들보다 압도적으로 적은 계산 비용으로 높은 정확도와 해부학적 세부 정보를 유지하는 효율적인 프레임워크를 제안합니다.

Mojtaba Safari, Shansong Wang, Vanessa L Wildman, Mingzhe Hu, Zach Eidex, Chih-Wei Chang, Erik H Middlebrooks, Richard L. J Qiu, Pretesh Patel, Ashesh B. Jani, Hui Mao, Zhen Tian, Xiaofeng Yang2026-03-10🔬 physics

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

이 논문은 자율주행 생성형 월드 모델의 발전을 촉진하기 위해 다양한 평가 데이터셋과 시각적 사실성, 궤적 타당성, 시간적 일관성, 제어 가능성 등을 종합적으로 측정하는 새로운 메트릭을 포함한 포괄적인 벤치마크 'DrivingGen'을 제안합니다.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

이 논문은 Swin Transformer 비전 인코더와 시퀀스 - 시퀀스 언어 디코더를 통합한 경량 2 단계 멀티태스크 프레임워크를 제안하여 작물 질병 시각적 질문 응답 (VQA) 에서 높은 정확도와 설명 가능성을 달성하고 PlantVillageVQA 벤치마크에서도 우수한 일반화 성능을 입증했습니다.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL