cs.CV 편의 논문 | Gist.Science

SpikeTrack: A Spike-driven Framework for Efficient Visual Tracking

이 논문은 기존 SNN 기반 추적기의 효율성과 정확도 간의 트레이드오프를 해결하기 위해 비대칭 시간 단계 확장 및 단방향 정보 흐름을 활용한 'SpikeTrack'을 제안하여, RGB 객체 추적에서 최첨단 성능을 달성하면서도 TransT 대비 1/26 의 에너지만 소모하는 에너지 효율적인 프레임워크를 제시합니다.

Qiuyang Zhang, Jiujun Cheng, Qichao Mao + 5 more2026-03-02💻 cs

MSVBench: Towards Human-Level Evaluation of Multi-Shot Video Generation

이 논문은 단일 샷에 국한된 기존 평가의 한계를 극복하기 위해 계층적 스크립트와 참조 이미지를 포함한 최초의 종합적인 멀티샷 비디오 생성 벤치마크인 'MSVBench'를 제안하고, 대규모 멀티모달 모델과 전문가 모델을 결합한 하이브리드 평가 프레임워크를 통해 인간 수준의 평가 신뢰성을 확보함과 동시에 이를 학습 신호로 활용하여 상업적 모델과 견줄 만한 성능을 달성함을 보여줍니다.

Haoyuan Shi, Yunxin Li, Nanhao Deng + 5 more2026-03-02💻 cs

Venus: Benchmarking and Empowering Multimodal Large Language Models for Aesthetic Guidance and Cropping

이 논문은 스마트폰 사진 촬영 시 전문가 수준의 미적 피드백과 구도 최적화를 가능하게 하는 최초의 대규모 데이터셋 'AesGuide'와 이를 기반으로 한 두 단계 프레임워크 'Venus'를 제안하여, 기존 멀티모달 대규모 언어 모델의 미적 안내 및 자르기 성능을 획기적으로 개선했습니다.

Tianxiang Du, Hulingxiao He, Yuxin Peng2026-03-02💻 cs

MINT: Multimodal Imaging-to-Speech Knowledge Transfer for Early Alzheimer's Screening

이 논문은 MRI 기반의 생체 표지자 구조를 음성 데이터에 전이하여 뇌 영상 없이도 알츠하이머병의 초기 선별을 가능하게 하는 'MINT'라는 다중 모달 지식 전이 프레임워크를 제안하고 그 유효성을 입증합니다.

Vrushank Ahire, Yogesh Kumar, Anouck Girard + 1 more2026-03-02🤖 cs.AI

Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

이 논문은 기존 마스킹 이미지 생성 모델의 계산 비효율성을 해결하기 위해 이전 특징과 샘플링된 토큰을 모두 활용하여 특징 진화의 평균 속도장을 학습하는 경량 모델 'MIGM-Shortcut'을 제안함으로써, 품질 저하 없이 텍스트-이미지 생성 속도를 4 배 이상 가속화한다고 설명합니다.

Kaiwen Zhu, Quansheng Zeng, Yuandong Pu + 8 more2026-03-02💻 cs

Ordinal Diffusion Models for Color Fundus Images

이 논문은 당뇨병성 망막병증 (DR) 의 연속적인 진행 특성을 반영하기 위해 질병 단계를 이산적 클래스가 아닌 스칼라 값으로 표현하는 순서형 잠재 확산 모델을 제안하여, 기존 조건부 확산 모델보다 더 현실적인 안저 이미지를 생성하고 임상적 일관성을 향상시켰음을 보여줍니다.

Gustav Schmidt, Philipp Berens, Sarah Müller2026-03-02💻 cs

Interpretable Debiasing of Vision-Language Models for Social Fairness

이 논문은 희소 자동 인코더 (SAE) 를 활용하여 비전 - 언어 모델 (VLM) 의 사회적 편향을 유발하는 뉴런을 해석 가능하게 식별하고 비활성화함으로써, 모델의 의미적 지식 저하 없이 사회적 공정성을 확보하는 'DeBiasLens'라는 새로운 프레임워크를 제안합니다.

Na Min An, Yoonna Jang, Yusuke Hirota + 3 more2026-03-02🤖 cs.AI

SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

이 논문은 희소한 저해상도 다중 뷰 이미지로부터 고해상도 3D 가우스 스플래팅을 직접 예측하는 피드포워드 프레임워크인 SR3R 을 제안하여, 기존 방법의 한계를 극복하고 새로운 장면에 대한 강력한 제로샷 일반화 성능을 달성함을 보여줍니다.

Xiang Feng, Xiangbo Wang, Tieshi Zhong + 7 more2026-03-02💻 cs

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection

이 논문은 사전 학습된 멀티모달 LLM 의 잠재 표현 매니폴드를 능동적으로 조정하고 수정하여 비디오 이상 탐지 성능을 극대화하는 'SteerVAD'라는 새로운 개입 프레임워크를 제안하며, 기존 튜닝 없는 방법론의 한계를 극복하고 소량의 데이터만으로 최첨단 성능을 달성함을 보여줍니다.

Zhaolin Cai, Fan Li, Huiyu Duan + 2 more2026-03-02💻 cs

GuardAlign: Test-time Safety Alignment in Multimodal Large Language Models

이 논문은 복잡한 장면에서도 정확한 위험 감지와 일관된 안전 신호 유지를 위해 최적 수송 기반 검출 및 교차 모드 주의력 보정 전략을 결합한 훈련 불필요한 안전 정렬 프레임워크 'GuardAlign'을 제안하여 멀티모달 대형 언어 모델의 안전성을 크게 향상시킨다고 요약할 수 있습니다.

Xingyu Zhu, Beier Zhu, Junfeng Fang + 4 more2026-03-02💻 cs

Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation

본 논문은 기존 방법의 한계를 극복하기 위해 훈련 없이 시각 토큰의 중복성을 줄이고 최적의 패치를 선택적으로 강화하는 '적응형 시각 강화 (AIR)' 프레임워크를 제안하여 멀티모달 대규모 언어 모델의 환각 현상을 효과적으로 완화함을 보여줍니다.

Xingyu Zhu, Kesen Zhao, Liang Yi + 4 more2026-03-02💻 cs

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

이 논문은 단일 이미지와 비디오로부터 고충실도 3D 의류 재구성을 위해 2D UV 공간에서 학습된 생성 확산 모델과 Implicit Sewing Patterns 를 결합하고, 시공간 확산 기법과 테스트 시간 가이드를 통해 일관된 동적 재구성을 가능하게 하는 통합 프레임워크를 제안합니다.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

이 논문은 비전 - 언어 모델의 양자화에서 입력 토큰별 중요 채널 분포의 차이를 고려하여 공유 및 라우팅 전문가 (Mixture of Experts) 를 활용한 토큰 인지형 적응적 오차 보상 기법인 'Quant Experts'를 제안하고, 다양한 모델 규모에서 전체 정밀도 수준의 성능을 유지하며 정확도를 향상시킨다고 설명합니다.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

이 논문은 비전-언어 모델이 생성한 방사선 보고서의 논리적 일관성을 보장하기 위해, 자유 텍스트를 구조화된 명제로 자동 형식화하고 SMT 솔버를 활용해 임상적 추론의 오류를 검증하는 신경기호적 검증 프레임워크를 제안합니다.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

이 논문은 RAG 시스템에서 복잡한 시각 문서 처리 시 발생하는 과도한 컨텍스트와 할루시네이션 문제를 해결하기 위해, 문서 레이아웃을 분석하여 필요한 영역만 동적으로 추출하는 새로운 패러다임인 AgenticOCR 을 제안합니다.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

이 논문은 재구성 품질에 기반한 적응형 가지치기 전략과 양음 밀도를 동시에 모델링하는 3D 차분 가우시안 원리를 도입하여, 3D 가우시안 스플래팅의 모델 크기를 최대 90% 줄이면서도 시각적 품질을 유지하거나 향상시키는 효율적인 방법을 제안합니다.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

← 이전 다음 →

cs.CV