cs.CV 편의 논문 | Gist.Science

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

본 논문은 희소 어텐션으로 인한 정보 손실 없이 학습 없이 클러스터 중심점을 기반으로 선형 보상을 수행하고, 보상이 필요한 블록을 정확히 식별하는 오류 인식 라우팅을 도입하여 비디오 생성의 효율성과 품질을 동시에 극대화하는 'SVG-EAR'을 제안합니다.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung2026-03-11💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

본 논문은 케이블 구동 수술 로봇의 기구적 오차와 무균 유지 문제를 해결하기 위해 가우스 스플래팅 기반의 마커 없는 자동 손 - 눈 보정 프레임워크 'SurgCalib'을 제안하고, dVRK 벤치마크에서 높은 정확도로 검증된 결과를 제시합니다.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

SkipGS 는 3D 가우스 스플래팅 (3DGS) 의 학습 시간 중 상당 부분을 차지하는 후 밀도화 (post-densification) 단계에서 손실 감소가 미미한 뷰에 대한 역전파를 적응적으로 건너뛰어 전체 학습 시간을 23.1% 단축하면서도 재구성 품질은 유지하는 플러그인 방식의 효율적 학습 방법을 제안합니다.

Jingxing Li, Yongjae Leeand, Deliang Fan2026-03-11💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

이 논문은 고해상도 스캐너와 생성형 AI 의 발전으로 위협받는 기존 복제 방지 패턴 (CDP) 인증의 한계를 극복하기 위해, 원본 템플릿과 프린터 고유 서명을 결합한 확산 기반 멀티모달 프레임워크를 제안하여 위조품을 효과적으로 식별하고 일반화 성능을 입증했습니다.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-Junior2026-03-11💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

이 논문은 사전 훈련된 오토리거시티브 정규화 흐름 (AR-NF) 모델의 준결정적 결합 (coupling) 을 증류하여 독립 결합이나 최적 수송 결합보다 우수한 성능을 내면서도 교사 모델 자체를 개선하는 새로운 '정규화 흐름 매칭 (NFM)' 방법을 제안합니다.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

이 논문은 완전 연결 네트워크에 국한되거나 근사적인 기존 방법의 한계를 극복하기 위해, 합성곱 신경망 (CNN) 의 기하학적 구조를 정확히 반영하는 폐쇄형 평탄도 측정치를 제안하고 이를 통해 CNN 모델의 일반화 성능을 정밀하게 평가하고 아키텍처 설계에 활용할 수 있음을 입증합니다.

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

이 논문은 상태 공간 모델링과 약한 신호 어텐션 융합을 통해 하이퍼스펙트럼 이미지 내 약한 신호의 붕괴 문제를 해결하고, 기존 최첨단 방법들보다 RMSE 와 SAD 를 각각 최대 55% 와 63% 까지 감소시킨 새로운 심층 분해 프레임워크인 WS-Net 을 제안합니다.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

이 논문은 방향성과 주파수 특성을 고려한 구조적 스펙트럼 교란을 도입하고 컨볼루션 연산을 곱셈 계층으로 대체하는 풀-프로덕트 U-Net 아키텍처를 제안함으로써, 단일 이미지 강우 제거의 성능과 효율성을 동시에 개선한 'SpectralDiff' 프레임워크를 소개합니다.

Yucheng Xing, Xin Wang2026-03-11💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

이 논문은 9,860 개의 주석 이미지로 학습된 향상된 YOLOv8 기반의 이중 모델 프레임워크를 통해 화재와 연기를 탐지하고 주변 객체와의 거리를 추정하여 정량적 위험 점수를 산출함으로써, 공학 현장의 화재 위험에 대한 지능적인 공간 추정 및 상황 인식 능력을 강화하는 것을 제안합니다.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

이 논문은 고정된 밀도 깊이와 의미론적 패치 특징을 3D 가우시안 원시 객체로 변환하는 가우시안 공간 토크나이저 (GST) 와 3D 깊이 인식 체인 오브 씽킹 (DA-CoT) 추론을 도입하여 LIBERO 와 SimplerEnv 환경에서 기존 VLA 모델보다 뛰어난 정밀도와 성능을 달성한 GST-VLA 를 제안합니다.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

이 논문은 기존 방법의 높은 계산 비용과 데이터 요구 사항을 해결하기 위해 FlowEdit 의 편집 시퀀스를 대상 시퀀스로 대체하고 확률적 요소를 제거하여, 학습 없이도 리프 동기화 및 오디오 - 비주얼 편집을 수행하는 'OmniEdit'프레임워크를 제안합니다.

Lixiang Lin, Siyuan Jin, Jinshan Zhang2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

이 논문은 물리 법칙을 준수하는 비디오 생성을 위해 물리 공식으로 제약된 사고 연쇄를 통한 사건 체인 추론과 사건 간 연속성을 보장하는 교차 모달 프롬프팅 모듈을 도입하여, 현실적인 물리 현상의 인과적 진화를 효과적으로 모델링하는 새로운 프레임워크를 제안합니다.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

본 논문은 멀티모달 LLM 에서 텍스트가 이미지로 변환될 때 발생하는 성능 저하 (모달리티 격차) 를 체계적으로 진단하고, 렌더링 요인의 영향과 오류 유형을 규명하며, 모델의 자체 텍스트 추론 궤적을 활용한 자기 증류법을 통해 시각적 텍스트 이해 능력을 획기적으로 개선하는 방법을 제시합니다.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

이 논문은 의료 영상 - 언어 사전학습에서 기존 방법의 인지적 비효율성을 해결하기 위해 진단 민감도와 대표성을 고려한 2 단계 커리큘럼 학습과 비대칭 대비 손실 함수를 도입한 MedKCO 를 제안하며, 이를 통해 다양한 하위 작업에서 기존 베이스라인을 크게 능가하는 성능을 입증했습니다.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

이 논문은 사용자 프롬프트의 모호성을 해소하고 다양한 운동 유형을 분리 제어하기 위해 운동 무정지, 강체 운동, 비강체 운동으로 복잡한 운동을 분해하는 '계획 후 생성' 패러다임 기반의 훈련 없는 운동 분해 프레임워크를 제안합니다.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

이 논문은 피부암 진단을 지원하기 위해 참조 이미지와 텍스트 설명을 결합한 복합 질의에 대해 전역 및 지역적 특징을 정렬하는 트랜스포머 기반 프레임워크를 제안하고, Derm7pt 데이터셋에서 기존 최첨단 방법보다 우수한 성능을 입증했습니다.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

이 논문은 대규모 언어 모델 (LLM) 을 구조화된 의미 교사로서 활용하여 사전 학습된 후 제거함으로써, 적은 데이터로 높은 성능을 내면서도 임상 환경에 배포 가능한 경량 의료 비전 트랜스포머 (ViT) 인 'VIVID-Med'프레임워크를 제안합니다.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities

이 논문은 결측 모달리티가 존재하는 실제 환경에서 각 모달리티의 신뢰도를 동적으로 평가하고 지배적인 모달리티에 다른 모달리티를 점진적으로 정렬함으로써 다중 모달리티 감정 분석의 강건성을 향상시킨 'PRLF' 프레임워크를 제안합니다.

Jindi Bao, Jianjun Qian, Mengkai Yan, Jian Yang2026-03-11💻 cs

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

이 논문은 비균일한 열화 조건에서 고해상도 이미지를 복원하기 위해 불확실성 기반의 적응형 노이즈 생성 모듈과 멀티모달 대형 언어 모델을 활용한 품질 인식 사전 지식을 통합한 'QUSR'이라는 새로운 확산 기반 초해상도 모델을 제안합니다.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Transformer-Based Multi-Region Segmentation and Radiomic Analysis of HR-pQCT Imaging

이 논문은 SegFormer 기반의 자동화된 다중 영역 분할을 통해 HR-pQCT 이미지에서 골격뿐만 아니라 연부조직까지 포함한 방사선학적 특징을 추출하여 골다공증 진단 정확도를 기존 뼈 기반 모델보다 향상시킨 최초의 연구입니다.

Mohseu Rashid Subah, Mohammed Abdul Gani Zilani, Thomas L. Nickolas, Matthew R. Allen, Stuart J. Warden, Rachel K. Surowiec2026-03-11💻 cs

← 이전 다음 →