cs.CV 편의 논문 | Gist.Science

sim2art: Accurate Articulated Object Modeling from a Single Video using Synthetic Training Data Only

이 논문은 단일 비디오만으로도 합성 데이터만으로 학습된 시뮬레이션 기반 프레임워크 'sim2art'를 통해 관절형 물체의 3D 부분 분할 및 조인트 파라미터를 정확하게 복원하고, 기존 방법들의 한계를 극복하며 새로운 벤치마크 데이터셋을 제안합니다.

Arslan Artykov, Tom Ravaud, Corentin Sautier, Vincent Lepetit2026-03-24💻 cs

Leveraging Multispectral Sensors for Color Correction in Mobile Cameras

이 논문은 고해상도 RGB 센서와 보조 저해상도 다중분광 센서의 데이터를 단일 모델에서 통합하여 종단간 색상 보정을 수행하는 학습 기반 프레임워크를 제안함으로써 기존 방법 대비 최대 50% 의 색상 정확도 향상을 달성함을 보여줍니다.

Luca Cogo, Marco Buzzelli, Simone Bianco, Javier Vazquez-Corral, Raimondo Schettini2026-03-24💻 cs

LoGoColor: Local-Global 3D Colorization for 360° Scenes

이 논문은 360 도 장면의 복잡한 3D 재구성에서 기존 방법의 색상 평균화 문제를 해결하고, 서브장면 분할과 다중 뷰 확산 모델을 결합한 '로컬 - 글로벌' 접근법을 통해 일관성 있고 다양한 색상을 보존하는 LoGoColor 를 제안합니다.

Yeonjin Chang, Juhwan Cho, Seunghyeon Seo, Wonsik Shin, Nojun Kwak2026-03-24💻 cs

Flowception: Temporally Expansive Flow Matching for Video Generation

Flowception 은 프레임 삽입과 연속적인 프레임 제거 노이즈를 교차하여 학습하는 비자율적 가변 길이 비디오 생성 프레임워크로, 장기적 맥락 처리 효율성과 학습 비용 절감을 통해 기존 방법보다 우수한 성능을 달성하며 이미지-비디오 생성과 비디오 보간 등 다양한 작업을 통합합니다.

Tariq Berrada Ifriqi, John Nguyen, Karteek Alahari, Jakob Verbeek, Ricky T. Q. Chen2026-03-24🤖 cs.AI

VoroLight: Learning Voronoi Surface Meshes via Sphere Intersection

이 논문은 가변성 있는 보로노이 표면 메쉬를 학습하여 3D 형상 복원 시 표면의 매끄러움과 기하학적 규칙성을 향상시키는 미분 가능 프레임워크인 'VoroLight'를 제안합니다.

Jiayin Lu, Ying Jiang, Yumeng He, Yin Yang, Chenfanfu Jiang2026-03-24🤖 cs.LG

Intrinsic Image Fusion for Multi-View 3D Material Reconstruction

이 논문은 단일 뷰 사전 지식과 확산 기반 추정기를 활용하여 일관성이 부족한 다중 뷰 예측을 통합하고, 역 경로 추적을 통해 고품질의 물리 기반 재료를 재구성하는 '본질적 이미지 융합 (Intrinsic Image Fusion)' 방법을 제안합니다.

Peter Kocsis (Technical University of Munich), Lukas Höllein (Technical University of Munich), Matthias Nießner (Technical University of Munich)2026-03-24🤖 cs.AI

CausalCLIP: Causally-Informed Feature Disentanglement and Filtering for Generalizable Detection of Generated Images

이 논문은 생성된 이미지의 검출 일반화 성능을 향상시키기 위해 인과 추론 원리를 활용하여 작업 관련 인과적 특징과 무관한 특징을 분리하고 필터링하는 'CausalCLIP' 프레임워크를 제안합니다.

Bo Liu, Qiao Qin, Qinghui He2026-03-24💻 cs

TTP: Test-Time Padding for Adversarial Detection and Robust Adaptation on Vision-Language Models

이 논문은 비전 - 언어 모델의 적대적 공격을 탐지하고 적응하기 위해 추론 시 패딩을 활용한 경량 방어 프레임워크인 TTP 를 제안하며, 기존 방법들의 한계를 극복하고 적대적 견고성과 깨끗한 정확도를 동시에 향상시킵니다.

Zhiwei Li, Yitian Pang, Weining Wang, Zhenan Sun, Qi Li2026-03-24🤖 cs.AI

InfoTok: Adaptive Discrete Video Tokenizer via Information-Theoretic Compression

정보 이론에 기반한 InfoTok 은 비디오의 정보 밀도에 따라 토큰을 적응적으로 할당하여 기존 고정 압축 방식의 한계를 극복하고, 성능 저하 없이 토큰 수를 20% 절감하거나 2.3 배의 압축률을 달성하는 새로운 비디오 토크나이저 프레임워크를 제안합니다.

Haotian Ye, Qiyuan He, Jiaqi Han, Puheng Li, Jiaojiao Fan, Zekun Hao, Fitsum Reda, Yogesh Balaji, Huayu Chen, Sheng Liu, Angela Yao, James Zou, Stefano Ermon, Haoxiang Wang, Ming-Yu Liu2026-03-24🤖 cs.AI

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

본 논문은 기존 벤치마크의 한계를 지적하고, 구별, 공간, 제한, 거부라는 네 가지 차원에서 MLLM 의 실제 시각적 그라운딩 능력을 평가하는 새로운 벤치마크 'GroundingME'를 제안하며, 이를 통해 현재 모델들의 심각한 성능 격차를 드러내고 개선 방향을 제시합니다.

Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo2026-03-24💻 cs

← 이전 다음 →