Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

이 논문은 객체 간의 관계를 포착하여 공간 추론 능력을 향상시키기 위해 입력 이미지에 장면 그래프를 오버레이하는 새로운 비주얼 프롬핑 기법인 'Graph-of-Mark(GoM)'을 제안하고, 이를 통해 멀티모달 언어 모델의 제로샷 성능을 최대 11% 포인트까지 개선했음을 입증합니다.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

이 논문은 의료 분야에서는 체인 오브 씽킹 (CoT) 프롬프팅이 오히려 성능을 저하시키는 '의료 지각 병목' 현상이 발생함을 발견하고, 이를 해결하기 위해 영역 관심사 힌트와 고품질 텍스트 안내를 활용한 훈련 없는 추론 시 그라운딩 개입이 정확도를 향상시킨다는 것을 제시합니다.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

이 논문은 인접한 시각 토큰 간의 공발생 패턴을 활용한 구절 단위 추측적 검증 (Phrase Verification) 을 통해 학습 없이도 생성 품질을 유지하면서 자동회귀 이미지 생성의 추론 속도를 최대 30% 까지 향상시키는 'SJD-PV' 프레임워크를 제안합니다.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

이 논문은 수면 환경의 제한된 특징과 간섭으로 인해 기존 보정 방법이 부진한 문제를 해결하기 위해, 탐지 목표와 결합된 엔드 - 투 - 엔드 학습을 통해 외관 보정을 자동으로 미세 조정하는 트랜스포머 기반의 가분산 보정 융합 모델 'CalibFusion'을 제안합니다.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

이 논문은 역사적 유물인 반 에이크 형제의 '겐트 제단화' 단면 분석을 위해 대기 및 획득 아티팩트에 강인한 가중 스펙트럼 각도 거리 (WSAD) 손실 함수를 도입한 비지도 CNN 오토인코더를 제안하여, 복잡한 혼합 스펙트럼을 자동으로 분해하고 해석하는 새로운 방법을 제시합니다.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

이 논문은 다차원 보상 간섭과 이질적 데이터 경계 충돌을 해결하는 병렬 상대적 정책 최적화 (PRPO) 와 제어된 오류 주입을 통한 객관적 평가를 가능하게 하는 MCDR-Bench 를 제안하여, 차트 데이터의 심층 연구 능력을 체계적으로 향상시키는 통합 프레임워크를 구축했습니다.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

이 논문은 수련의가 작성한 초안 보고서를 전공의가 검토·수정하는 임상 워크플로우를 반영하여, 3 차원 의료 영상과 보고서 수정안을 매칭하고 수정 유형, 임상적 중증도, 영상 일치도를 평가하는 정교한 다중 모달 벤치마크 'RADAR'를 제안합니다.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

이 논문은 텍스트와 시각 정보를 활용한 멀티미디어 이벤트 추출에서 기존 접근법의 오류 전파 문제를 해결하기 위해, 공유된 멀티미디어 이벤트 하이퍼그래프를 기반으로 전문 에이전트들이 협력하여 점진적으로 정보를 정제하는 'ECHO' 프레임워크와 지연된 역할 결정을 가능하게 하는 'Link-then-Bind' 전략을 제안하고 있음을 설명합니다.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

이 논문은 비전 - 언어 모델의 지리 - 시간적 추론 능력을 평가하기 위해 80 개국의 1,455 장 이미지를 포함한 'TimeSpot' 벤치마크를 제안하고, 기존 모델들의 성능이 특히 시간적 추론 분야에서 여전히 부족함을 입증했습니다.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

이 논문은 생성형 AI 의 장기적 일관성과 다중 모달 제어 문제를 해결하기 위해 고수준 서사 계획과 동적 메모리 은행을 결합한 '내러티브 웨버 (Narrative Weaver)' 프레임워크를 제안하고, 이를 평가하기 위한 대규모 데이터셋을 공개한 연구입니다.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

이 논문은 학습 데이터가 부재한 환경에서도 심한 노이즈가 포함된 입자 가속기 빔 진단 데이터를 위해, 합성곱 필터링과 최적화된 조기 종료 전략을 활용한 비지도 학습 프레임워크를 제안하여 빔 헤일로 구조를 7 표준편차 이상으로 정밀하게 재구성하고 에미턴스를 고충실도로 복원하는 방법을 소개합니다.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG