cs.CV 편의 논문 | Gist.Science

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

이 논문은 영화 서사 이론에 영감을 받아 'Temporal Narrative Atom (TNA)' 개념을 도입하고 MLLM 기반 평가 지표를 개발하여, 기존 벤치마크의 한계를 극복하고 장편 비디오 생성 모델의 서사 표현 능력을 종합적으로 평가하는 최초의 벤치마크인 'NarrLV'를 제안합니다.

X. Feng, H. Yu, M. Wu, S. Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang2026-03-09💻 cs

Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping

이 논문은 IoT 기반 표준화 프로토콜로 구축된 64,464 장의 토마토 다각도·다자세 이미지와 정밀 주석을 포함하는 'TomatoMAP' 데이터셋을 소개하고, 이를 활용한 딥러닝 모델이 인간 전문가 수준의 정밀 표현형 분석 성능을 입증함을 보여줍니다.

Yujie Zhang, Sabine Struckmeyer, Andreas Kolb + 1 more2026-03-09💻 cs

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

이 논문은 데이터 부족과 균일한 이상치 가정의 한계를 극복하기 위해 정상과 이상 패턴의 이중 분포를 명시적으로 모델링하고, 도메인 특화 텍스트 조건부 잠재 확산 모델을 활용한 합성 데이터 증강을 통해 산업 표면 결함 검출 성능을 획기적으로 향상시킨 'ExDD' 프레임워크를 제안합니다.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

Gaussian Set Surface Reconstruction through Per-Gaussian Optimization

이 논문은 3D 가우시안 스플래팅의 기하학적 재구성 한계를 극복하기 위해, 가우시안 분포를 매끄러운 표면에 정렬시키고 불필요한 요소를 제거하는 '가우시안 세트 표면 재구성 (GSSR)' 방법을 제안하여 정밀한 기하학적 정확도와 고품질 렌더링을 동시에 달성합니다.

Zhentao Huang, Di Wu, Zhenbang He, Minglun Gong2026-03-09💻 cs

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

이 논문은 화학 문헌의 복잡한 멀티모달 정보를 추출하기 위해 대형 언어 모델의 추론 능력과 전문 도구를 결합한 멀티 에이전트 시스템을 개발하여, 기존 최첨단 모델보다 성능을 크게 향상시키고 다양한 정보 추출 작업에 적용 가능함을 입증했습니다.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

이 논문은 LVLM 의 숨겨진 상태를 2D 의미 지도로 해석하여 층 간 및 층 내 차원의 토큰을 집계하는 '크리스 크로스 어텐션'과 '글로벌 - 로컬 로그릿 퓨전'을 도입한 훈련 없는 MAP 기법을 제안함으로써, 기존 방법보다 광범위하게 분포된 사실 정보를 활용하여 시각 - 언어 모델의 환각 현상을 효과적으로 완화합니다.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

이 논문은 비전 - 언어 모델 (VLM) 의 활성화 특성을 분석하여 시각 토큰의 과잉 표현과 모달리티 간극 문제를 해결하기 위해, 토큰별 중요도를 고려한 선택적 양자화 전략을 도입함으로써 저비트 환경에서도 기존 방법보다 뛰어난 성능을 달성하는 VLMQ 라는 새로운 Post-Training Quantization 프레임워크를 제안합니다.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

본 논문은 SAM(Segment Anything Model) 이 생성한 고품질 의미 분할 마스크를 명시적 사전 지식으로 활용하여 조건부 확산 모델을 안내함으로써, 열화상 및 가시광선 이미지 융합에서 주요 대상의 보존과 아티팩트 감소를 동시에 달성하는 SGDFuse 를 제안합니다.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Multivariate Fields of Experts for Convergent Image Reconstruction

이 논문은 $\ell_\infty$ -노름의 모reau 포락선을 기반으로 한 다변량 잠재 함수를 도입하여 기존 Fields of Experts 방법을 일반화함으로써, 딥러닝 기반 정규화자와 유사한 성능을 유지하면서도 더 적은 데이터와 파라미터로 빠른 수렴 보장을 제공하는 새로운 이미지 재구성 프레임워크를 제안합니다.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model

이 논문은 비전 - 언어 모델이 기존 OCR 모델의 정밀한 시각 인식 능력과 전문가 모델의 결과를 참조하여 스스로 오류를 수정하는 '다시 보기' 추론 전략을 통해 텍스트 인식 정확도를 획기적으로 향상시킨 'DianJin-OCR-R1' 프레임워크를 제안합니다.

Qian Chen, Xianyin Zhang, Lifan Guo, Feng Chen, Chi Zhang2026-03-09💻 cs

SSL-SLR: Self-Supervised Representation Learning for Sign Language Recognition

이 논문은 수어 인식의 어려움인 데이터 부족과 부정적 쌍의 유사성 문제를 해결하기 위해, 자유 부정 쌍을 활용한 새로운 자기지도 학습 접근법과 데이터 증강 기법을 결합한 SSL-SLR 프레임워크를 제안하여 다양한 평가에서 기존 방법보다 우수한 성능을 입증했습니다.

Ariel Basso Madjoukeng, Jérôme Fink, Pierre Poitier, Edith Belise Kenmogne, Benoit Frenay2026-03-09💻 cs

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

이 논문은 실제 환경에서 발생하는 이벤트 누락 문제를 해결하기 위해, 다양한 트리거 임계값을 모방하는 강인성 지향 교란 전략과 모달리티별 특징을 분리한 후 선택적으로 융합하는 RED 네트워크를 제안하여 모션 디블러링의 정확도와 강인성을 동시에 향상시킵니다.

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang2026-03-09💻 cs

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

이 논문은 기존 유클리드 공간의 한계를 극복하고 비선형 구조를 효과적으로 포착하기 위해 VICReg 목적 함수를 재생 커널 힐베르트 공간 (RKHS) 으로 확장한 'Kernel VICReg'를 제안하고, 다양한 데이터셋에서 기존 방법보다 우수한 성능을 입증합니다.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

이 논문은 연방 지속 학습에서 프롬프트 간 클래스별 지식 일관성 부족으로 인한 공간적 및 시간적 망각 문제를 해결하기 위해, 국소 클래스 분포 보상과 클래스 인식 프롬프트 집계 기법을 도입한 C²Prompt 를 제안하여 최첨단 성능을 달성함을 보여줍니다.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Decision-Driven Semantic Object Exploration for Legged Robots via Confidence-Calibrated Perception and Topological Subgoal Selection

이 논문은 밀집 기하학적 재구성이 필요 없는 신뢰도 보정된 지각과 위상적 하위 목표 선택 메커니즘을 통해 다리가 있는 로봇의 개방형 환경 탐사에서 노이즈가 있는 의미론적 관측을 안정적이고 실행 가능한 의사결정으로 변환하는 새로운 접근법을 제시합니다.

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma2026-03-09💻 cs

← 이전 다음 →

cs.CV