cs.CV 편의 논문 | Gist.Science

HeroGS: Hierarchical Guidance for Robust 3D Gaussian Splatting under Sparse Views

이 논문은 희소 뷰 조건에서 3D 가우스 스플래팅의 불안정성을 해결하기 위해 이미지, 특징, 파라미터 수준에서 계층적 가이드를 제공하는 'HeroGS' 프레임워크를 제안하여, 구조적 충실도와 렌더링 품질을 크게 향상시킵니다.

Jiashu Li, Xumeng Han, Zhaoyang Wei + 5 more2026-03-04💻 cs

Continuous Exposure-Time Modeling for Realistic Atmospheric Turbulence Synthesis

이 논문은 노출 시간을 연속적으로 모델링하는 물리 기반의 새로운 합성 파이프라인을 제안하고, 이를 통해 구축된 대규모 합성 대기 난류 데이터셋 ET-Turb 가 기존 방법들보다 현실적인 복원 품질과 일반화 성능을 제공함을 입증합니다.

Junwei Zeng, Dong Liang, Sheng-Jun Huang + 2 more2026-03-04💻 cs

UETrack: A Unified and Efficient Framework for Single Object Tracking

본 논문은 RGB, 깊이, 열화상, 이벤트, 언어 등 다양한 모달리티를 효율적으로 처리하기 위해 토큰 풀링 기반의 혼합 전문가 메커니즘과 대상 인식 적응 증류 전략을 도입한 단일 객체 추적 프레임워크인 UETrack 을 제안하고, 다양한 벤치마크와 하드웨어에서 뛰어난 속도 - 정확도 균형을 입증합니다.

Ben Kang, Jie Zhao, Xin Chen + 5 more2026-03-04💻 cs

FACE: A Face-based Autoregressive Representation for High-Fidelity and Efficient Mesh Generation

이 논문은 메쉬의 기본 단위인 삼각형 면을 단일 토큰으로 처리하는 'FACE'라는 새로운 오토레거시 오토인코더 프레임워크를 제안하여 시퀀스 길이를 획기적으로 단축하고 계산 비용을 절감하면서도 고품질의 3D 메쉬 생성을 가능하게 합니다.

Hanxiao Wang, Yuan-Chen Guo, Ying-Tian Liu + 6 more2026-03-04💻 cs

InterCoG: Towards Spatially Precise Image Editing with Interleaved Chain-of-Grounding Reasoning

이 논문은 복잡한 다중 개체 장면에서 정밀한 이미지 편집을 위해 텍스트 기반 공간 추론과 시각적 그라운딩을 교차적으로 수행하는 'InterCoG' 프레임워크와 관련 데이터셋을 제안하여, 기존 모델이 해결하지 못했던 정밀한 위치 기반 편집 문제를 성공적으로 해결함을 보여줍니다.

Yecong Wan, Fan Li, Chunwei Wang + 3 more2026-03-04💻 cs

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

이 논문은 Vision Transformer 의 예측을 해석하기 위해 지지와 억제 신호를 모두 포착하는 양방향 활성화 매핑 기법인 BiCAM 을 제안하고, 이를 통해 모델의 국소화 정확도와 충실도를 향상시키며 재학습 없이 적대적 예제를 탐지할 수 있음을 입증합니다.

Qin Su, Tie Luo2026-03-04🤖 cs.AI

PromptStereo: Zero-Shot Stereo Matching via Structure and Motion Prompts

이 논문은 모노큘러 깊이 기반 모델의 디코더에 구조 및 운동 프롬프트를 통합한 새로운 반복 정제 모듈인 Prompt Recurrent Unit (PRU) 을 제안함으로써, 기존 방법들의 한계를 극복하고 여러 데이터셋에서 최첨단 제로샷 일반화 성능과 빠른 추론 속도를 달성하는 PromptStereo 를 소개합니다.

Xianqi Wang, Hao Yang, Hangtian Wang + 4 more2026-03-04💻 cs

Nano-EmoX: Unifying Multimodal Emotional Intelligence from Perception to Empathy

이 논문은 감지, 이해, 상호작용의 인지적 위계를 기반으로 한 커리큘럼 학습 프레임워크인 P2E 와 함께, 22 억 파라미터 규모의 경량 멀티모달 언어 모델인 Nano-EmoX 를 제안하여 저수준 감지부터 고수준 공감까지의 간극을 해소하고 다양한 감정 태스크에서 최첨단 성능을 달성함을 보여줍니다.

Jiahao Huang, Fengyan Lin, Xuechao Yang + 4 more2026-03-04🤖 cs.AI

SimRecon: SimReady Compositional Scene Reconstruction from Real Videos

이 논문은 실제 비디오로부터 시뮬레이션 가능한 구성적 장면을 재구성하기 위해 '지각 - 생성 - 시뮬레이션' 파이프라인을 제안하고, 생성된 자산의 시각적 충실도와 물리적 타당성을 높이기 위해 능동적 시점 최적화 및 장면 그래프 합성기라는 두 가지 연결 모듈을 도입한 SimRecon 프레임워크를 소개합니다.

Chong Xia, Kai Zhu, Zizhuo Wang + 3 more2026-03-04💻 cs

OnlineX: Unified Online 3D Reconstruction and Understanding with Active-to-Stable State Evolution

이 논문은 스트리밍 이미지를 통해 3D 기하학과 언어 장을 실시간으로 재구성하는 'OnlineX' 프레임워크를 제안하며, 누적 드리프트 문제를 해결하기 위해 고주파 국부 기하를 포착하는 활성 상태와 장기 글로벌 구조를 보존하는 안정적 상태를 분리하고 융합하는 새로운 패러다임을 제시합니다.

Chong Xia, Fangfu Liu, Yule Wang + 2 more2026-03-04💻 cs

HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

이 논문은 인간과 제품을 통합한 이미지 생성 시 제품 디테일의 고충실도 보존을 위해 공유 강화 어텐션과 디테일 인식 손실 함수를 도입하고, 새로운 HP-Image-40K 데이터셋을 구축하여 제안한 HiFi-Inpaint 프레임워크가 최첨단 성능을 달성함을 보여줍니다.

Yichen Liu, Donghao Zhou, Jie Wang + 9 more2026-03-04💻 cs

Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting

이 논문은 시계열 예측을 2D 가우스 스플래팅 렌더링 프레임워크인 'TimeGS'로 재정의하여, 기존 2D 표현의 위상적 불일치와 비효율적 모델링 문제를 해결하고 상태-of-the-art 성능을 달성했습니다.

Yixin Wang, Yifan Hu, Peiyuan Liu + 3 more2026-03-04🤖 cs.AI

CamDirector: Towards Long-Term Coherent Video Trajectory Editing

CamDirector 는 하이브리드 워핑 방식과 히스토리 기반 자기회귀 확산 모델을 통해 장기간의 시간적 일관성을 유지하면서 사용자 정의 카메라 경로를 정밀하게 반영하는 새로운 비디오 궤적 편집 프레임워크를 제안하고, 이를 검증하기 위한 새로운 벤치마크인 iPhone-PTZ 를 소개합니다.

Zhihao Shi, Kejia Yin, Weilin Wan + 5 more2026-03-04💻 cs

Social-JEPA: Emergent Geometric Isomorphism

이 논문은 매개변수 공유나 조정 없이 서로 다른 시점에서 학습된 두 에이전트의 세계 모델이 예측 학습 목표를 통해 기하학적 등거리성 (isometry) 을 자연스럽게 획득하여, 추가 학습 없이도 한 에이전트의 분류기를 다른 에이전트로 즉시 이전할 수 있는 경량 상호운용성 체계를 제시합니다.

Haoran Zhang, Youjin Wang, Yi Duan + 6 more2026-03-04🤖 cs.AI

From Visual to Multimodal: Systematic Ablation of Encoders and Fusion Strategies in Animal Identification

이 논문은 190 만 장의 대규모 데이터셋을 기반으로 시각 및 텍스트 정보를 융합한 다중 모달 프레임워크를 제안하여, 합성된 의미적 설명을 시각 특징과 결합함으로써 기존 단모달 시스템 대비 11% 향상된 동물 식별 성능을 달성했음을 보여줍니다.

Vasiliy Kudryavtsev, Kirill Borodin, German Berezin + 3 more2026-03-04💻 cs

Beyond Prompt Degradation: Prototype-guided Dual-pool Prompting for Incremental Object Detection

이 논문은 증분 객체 탐지에서 프롬프트 결합 및 드리프트로 인한 성능 저하를 해결하기 위해, 공유 및 개인 풀을 활용한 프롬프트 분해 구조와 프로토타입 기반 가짜 라벨 생성 모듈을 도입한 PDP 프레임워크를 제안하여 MS-COCO 와 PASCAL VOC 에서 최첨단 성능을 달성했다고 요약할 수 있습니다.

Yaoteng Zhang, Zhou Qing, Junyu Gao + 1 more2026-03-04🤖 cs.AI

AutoFFS: Adversarial Deformations for Facial Feminization Surgery Planning

이 논문은 성전환 안면 성형술 (FFS) 의 계획에 정량적이고 재현 가능한 해부학적 지침을 제공하기 위해, 학습된 성별 분류기를 대상으로 하는 적대적 자유형 변형을 통해 반사실적 두개골 형태를 생성하는 새로운 데이터 기반 프레임워크인 AutoFFS 를 제안합니다.

Paul Friedrich, Florentin Bieder, Florian M. Thieringer + 1 more2026-03-04⚡ eess

Loss Design and Architecture Selection for Long-Tailed Multi-Label Chest X-Ray Classification

이 논문은 CXR-LT 2026 벤치마크를 기반으로 LDAM-DRW 손실 함수와 ConvNeXt-Large 아키텍처를 결합하여 장기 꼬리 분포를 가진 다중 레이블 흉부 X-ray 분류 문제를 해결하고, 68 개 팀 중 5 위를 기록한 체계적인 실증 평가 및 분석을 제시합니다.

Nikhileswara Rao Sulake2026-03-04⚡ eess

HAMMER: Harnessing MLLM via Cross-Modal Integration for Intention-Driven 3D Affordance Grounding

이 논문은 이미지 내 상호작용 의도를 텍스트 기반 어포던스 라벨로 변환하고, 계층적 교차 모달 통합 및 다중 세분화 기하학적 리프팅 모듈을 활용하여 3D 객체의 어포던스 위치를 정확하게 추정하는 새로운 프레임워크 HAMMER 를 제안합니다.

Lei Yao, Yong Chen, Yuejiao Su + 3 more2026-03-04💻 cs

Preconditioned Score and Flow Matching

이 논문은 중간 분포의 공분산 조건이 나빠질 때 발생하는 최적화 편향을 해결하기 위해, 생성 모델의 본질을 변경하지 않으면서 분포의 기하학적 구조를 개선하는 재가역적 조건부 전처리 기법을 제안하고 이를 통해 최적화 정체를 방지하여 모델 성능을 향상시킨다는 것을 보여줍니다.

Shadab Ahamed, Eshed Gal, Simon Ghyselincks + 3 more2026-03-04🤖 cs.AI

← 이전 다음 →