cs.CV 편의 논문 | Gist.Science

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

이 논문은 객체 간의 관계를 포착하여 공간 추론 능력을 향상시키기 위해 입력 이미지에 장면 그래프를 오버레이하는 새로운 비주얼 프롬핑 기법인 'Graph-of-Mark(GoM)'을 제안하고, 이를 통해 멀티모달 언어 모델의 제로샷 성능을 최대 11% 포인트까지 개선했음을 입증합니다.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

이 논문은 전역 시간 인덱스를 활용한 순차-병렬 3D 위치 인코딩 (Causal-RoPE SP) 과 연산 융합 기법을 도입하여 Diffusion Transformer 기반 비디오 생성 모델의 메모리 병목과 지연 시간을 해결하고, 480P 5 초 영상 생성 시 1.58 배의 속도 향상과 실시간 추론을 가능하게 합니다.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

이 논문은 의료 분야에서는 체인 오브 씽킹 (CoT) 프롬프팅이 오히려 성능을 저하시키는 '의료 지각 병목' 현상이 발생함을 발견하고, 이를 해결하기 위해 영역 관심사 힌트와 고품질 텍스트 안내를 활용한 훈련 없는 추론 시 그라운딩 개입이 정확도를 향상시킨다는 것을 제시합니다.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

이 논문은 인접한 시각 토큰 간의 공발생 패턴을 활용한 구절 단위 추측적 검증 (Phrase Verification) 을 통해 학습 없이도 생성 품질을 유지하면서 자동회귀 이미지 생성의 추론 속도를 최대 30% 까지 향상시키는 'SJD-PV' 프레임워크를 제안합니다.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

이 논문은 수면 환경의 제한된 특징과 간섭으로 인해 기존 보정 방법이 부진한 문제를 해결하기 위해, 탐지 목표와 결합된 엔드 - 투 - 엔드 학습을 통해 외관 보정을 자동으로 미세 조정하는 트랜스포머 기반의 가분산 보정 융합 모델 'CalibFusion'을 제안합니다.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

이 논문은 이미지 생성 모델에서 효과적이었던 의미적 잡음 초기화가 비디오 생성으로 확장될 때 통계적으로 유의미한 성능 향상을 보이지 않았으며, 이는 시간적 결합으로 인한 신호의 불안정성 때문임을 진단적 연구를 통해 규명했습니다.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

이 논문은 역사적 유물인 반 에이크 형제의 '겐트 제단화' 단면 분석을 위해 대기 및 획득 아티팩트에 강인한 가중 스펙트럼 각도 거리 (WSAD) 손실 함수를 도입한 비지도 CNN 오토인코더를 제안하여, 복잡한 혼합 스펙트럼을 자동으로 분해하고 해석하는 새로운 방법을 제시합니다.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

이 논문은 긴 과학 텍스트를 입력받아 참조 이미지의 스타일을 반영하면서도 수정이 가능한 고품질의 과학 일러스트레이션을 생성하는 엔드 투 엔드 시스템인 'AutoFigure-Edit'를 제안합니다.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

이 논문은 제한된 주석 데이터 환경에서 옥수수, 쌀, 밀 잎의 질병 단계를 정확히 분류하고 Grad-CAM 을 통해 의사결정 과정을 설명 가능한 하이브리드 퓨샷 학습 모델을 제안합니다.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

이 논문은 다차원 보상 간섭과 이질적 데이터 경계 충돌을 해결하는 병렬 상대적 정책 최적화 (PRPO) 와 제어된 오류 주입을 통한 객관적 평가를 가능하게 하는 MCDR-Bench 를 제안하여, 차트 데이터의 심층 연구 능력을 체계적으로 향상시키는 통합 프레임워크를 구축했습니다.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

이 논문은 사용자의 환경 제어와 공유 추론을 가능하게 하기 위해 외부 메모리를 도입하고 생성 과정을 메모리, 관찰, 역학 모듈로 분해하여 편집 가능한 멀티플레이어 월드를 생성하는 'MultiGen' 시스템을 제안합니다.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

이 논문은 이미지 내 가시성과 관점 추론 능력을 평가하기 위해 최소 편집을 기반으로 한 새로운 벤치마크 'VB'를 제안하고, 다양한 비전 - 언어 모델들의 성능을 정밀하게 분석한 결과를 제시합니다.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

이 논문은 수련의가 작성한 초안 보고서를 전공의가 검토·수정하는 임상 워크플로우를 반영하여, 3 차원 의료 영상과 보고서 수정안을 매칭하고 수정 유형, 임상적 중증도, 영상 일치도를 평가하는 정교한 다중 모달 벤치마크 'RADAR'를 제안합니다.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

이 논문은 텍스트와 시각 정보를 활용한 멀티미디어 이벤트 추출에서 기존 접근법의 오류 전파 문제를 해결하기 위해, 공유된 멀티미디어 이벤트 하이퍼그래프를 기반으로 전문 에이전트들이 협력하여 점진적으로 정보를 정제하는 'ECHO' 프레임워크와 지연된 역할 결정을 가능하게 하는 'Link-then-Bind' 전략을 제안하고 있음을 설명합니다.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

이 논문은 스마트폰 카메라로 촬영한 영상을 활용하여 구조 운동 (SfM) 기법과 3 차원 분할 알고리즘을 통해 현장의 골재 적재장으로부터 개별 입자의 3 차원 형상을 재구성하고 크기와 모양을 분석하는 새로운 접근법을 제시합니다.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

이 논문은 비전 - 언어 모델의 지리 - 시간적 추론 능력을 평가하기 위해 80 개국의 1,455 장 이미지를 포함한 'TimeSpot' 벤치마크를 제안하고, 기존 모델들의 성능이 특히 시간적 추론 분야에서 여전히 부족함을 입증했습니다.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

이 논문은 생성형 AI 의 장기적 일관성과 다중 모달 제어 문제를 해결하기 위해 고수준 서사 계획과 동적 메모리 은행을 결합한 '내러티브 웨버 (Narrative Weaver)' 프레임워크를 제안하고, 이를 평가하기 위한 대규모 데이터셋을 공개한 연구입니다.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

이 논문은 학습 데이터가 부재한 환경에서도 심한 노이즈가 포함된 입자 가속기 빔 진단 데이터를 위해, 합성곱 필터링과 최적화된 조기 종료 전략을 활용한 비지도 학습 프레임워크를 제안하여 빔 헤일로 구조를 7 표준편차 이상으로 정밀하게 재구성하고 에미턴스를 고충실도로 복원하는 방법을 소개합니다.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

본 논문은 HSI 전용 사전 학습 없이 TerraMind 기반 모델이 대역 선택을 통해 HSI 하위 작업에 적응할 수 있음을 보여주지만, 성능 저하가 발생하므로 향후 멀티모달 아키텍처에는 네이티브 스펙트럼 토큰화 도입이 필요함을 주장합니다.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

이 논문은 이동 로봇의 동적 시점에서의 셔틀콕 검출을 위해 새로운 데이터셋과 반자동 주석 파이프라인을 구축하고, 실시간 검출을 위한 YOLOv8 기반의 강인한 원샷 프레임워크를 제안하여 추적 및 궤적 추정 등 하위 작업의 기초를 마련했습니다.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

← 이전 다음 →