cs.CV 편의 논문 | Gist.Science

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation

이 논문은 생성된 비디오의 시각적 품질, 동적 품질, 텍스트 - 비디오 정합성이라는 세 가지 핵심 차원을 체계적으로 정의하고 통합적으로 평가하기 위해 약 10,000 개의 비디오 샘플과 세부적 귀속 설명이 포함된 Q-Save 데이터셋과 이를 기반으로 점수 예측과 해석 가능한 설명 생성을 동시에 수행하는 통합 모델을 제안합니다.

Xiele Wu, Zicheng Zhang, Mingtao Chen + 7 more2026-03-02💻 cs

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

이 논문은 700 만 개의 대규모 데이터셋과 모방 학습 및 사회적 인식 흐름 탐색 강화 학습 (SAFE-GRPO) 을 기반으로 한 계층적 '뇌 - 행동' 아키텍처를 통해 사회적 규범을 준수하는 지능형 내비게이션을 가능하게 하는 'SocialNav'라는 새로운 기초 모델을 제안합니다.

Ziyi Chen, Yingnan Guo, Zedong Chu + 14 more2026-03-02🤖 cs.AI

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

이 논문은 긴 비디오 이해의 효율성 문제를 해결하기 위해, 경량 드래프트 모델이 중요한 프레임을 제안하고 강력한 타겟 모델이 이를 검증하는 협력적 이중 모델 설계와 강화 학습 기반의 'SpecTemp' 프레임워크를 제안합니다.

Pengfei Hu, Meng Cao, Yingyao Wang + 6 more2026-03-02💻 cs

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

이 논문은 방사선 피폭 제한으로 인한 다중 모달리티 CT 데이터의 결측 문제를 해결하기 위해, 시간-감쇠 곡선 상의 결측 샘플점으로 재정의하고 해부학적 정적 성분과 관류 동적 성분을 분리하는 물리 인식 프레임워크인 TARDis 를 제안하여 불완전한 모달리티 환경에서도 우수한 종양 분할 및 분류 성능을 달성함을 보여줍니다.

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective

이 논문은 카메라 메타데이터 (EXIF) 를 활용한 자기지도 학습 방식을 통해 다양한 생성 모델과 실제 환경에서 강건한 AI 생성 이미지 탐지기를 제안하고, 기존 방법론의 한계를 극복하며 성능을 크게 향상시켰음을 보여줍니다.

Nan Zhong, Mian Zou, Yiran Xu + 4 more2026-03-02💻 cs

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models

이 논문은 지도 해석에 필요한 다단계 추론 능력을 평가하기 위해 FRIEDA 라는 새로운 벤치마크를 제안하고, 최신 대규모 시각-언어 모델들이 인간에 비해 지도 기반 공간 추론에서 여전히 큰 성능 격차를 보이고 있음을 입증합니다.

Jiyoon Pyo, Yuankun Jiao, Dongwon Jung + 11 more2026-03-02🤖 cs.AI

Sharp Monocular View Synthesis in Less Than a Second

이 논문은 단일 이미지에서 1 초 미만으로 3D 가우스 표현을 회귀하여 실시간 고해상도 시점 합성을 가능하게 하고, 기존 최첨단 모델 대비 LPIPS 와 DISTS 지표를 크게 개선한 SHARP 라는 새로운 방법을 제안합니다.

Lars Mescheder, Wei Dong, Shiwei Li + 10 more2026-03-02🤖 cs.LG

Geometric-Photometric Event-based 3D Gaussian Ray Tracing

이 논문은 이벤트 카메라의 고해상도 시간 정보를 활용하기 위해 기하학적 렌더링과 광도 렌더링을 분리하는 새로운 3D 가우스 스플래팅 프레임워크를 제안하여, 사전 정보나 초기화 없이도 정밀하고 빠른 3D 재구성을 가능하게 합니다.

Kai Kohyama, Yoshimitsu Aoki, Guillermo Gallego + 1 more2026-03-02🤖 cs.AI

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

이 논문은 자율주행의 실시간성, 안전성, 해석 가능성을 동시에 확보하기 위해 텍스트 추론을 잠재 공간으로 전환하고 계층적 병렬 경로를 생성하는 통합 비전 - 언어 - 행동 프레임워크인 ColaVLA 를 제안하며, nuScenes 벤치마크에서 기존 최첨단 성능을 달성했다고 요약할 수 있습니다.

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

Inference-time Physics Alignment of Video Generative Models with Latent World Models

이 논문은 잠재 세계 모델 (VJEPA-2) 을 보상 신호로 활용하여 추론 시 여러 생성 경로를 탐색하고 조정하는 'WMReward'를 제안함으로써, 기존 비디오 생성 모델의 물리 법칙 위반 문제를 해결하고 ICCV 2025 Perception Test PhysicsIQ 챌린지에서 1 위를 차지한 성과를 거두었음을 보여줍니다.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich + 7 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

이 논문은 채널 순서에 의존하지 않고 데이터로부터 채널 간 구조를 추론하여 재학습 없이도 구조적 변화와 미시적 채널에 대한 일반화 성능을 보장하는 다변량 시계열 예측 프레임워크인 CPiRi 를 제안하고, 이를 통해 기존 방법론의 한계를 극복하고 최첨단 성능을 달성함을 보여줍니다.

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs

Scale Equivariance Regularization and Feature Lifting in High Dynamic Range Modulo Imaging

이 논문은 자연 이미지 에지와 인위적인 감싸기 불연속성을 구분하여 고동적 범위 (HDR) 모듈로 이미징의 재구성 정확도를 획기적으로 개선하기 위해, 노출 변화에 대한 일관성을 강제하는 스케일 공변성 정규화와 원시 모듈로 이미지, 감싸기 유한 차분, 폐형식 초기화를 결합한 특징 리프팅 입력 설계를 도입한 학습 기반 HDR 복원 프레임워크를 제안합니다.

Brayan Monroy, Jorge Bacca2026-03-02⚡ eess

Imagine a City: CityGenAgent for Procedural 3D City Generation

이 논문은 자연어 기반의 계층적 절차적 생성 프레임워크인 CityGenAgent 를 제안하여, 지도 학습과 강화 학습을 결합해 고해상도 3D 도시의 구조적 정확성과 시각적 일관성을 보장하면서도 자연어 편집이 가능한 자동 생성 및 조작 기술을 실현합니다.

Zishan Liu, Zecong Tang, RuoCheng Wu + 6 more2026-03-02💻 cs

Erase at the Core: Representation Unlearning for Machine Unlearning

이 논문은 기존 기계적 망각 방법들이 내부 특징 표현을 남기는 '피상적 망각' 문제를 해결하기 위해, 네트워크의 모든 계층에서 대비 학습과 심층 감독 학습을 결합하여 원본 모델의 표현적 유사성을 효과적으로 제거하는 'Erase at the Core (EC)' 프레임워크를 제안합니다.

Jaewon Lee, Yongwoo Kim, Donghyun Kim2026-03-02🤖 cs.LG

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion

이 논문은 기존 고해상도 이미지 생성 방법의 높은 계산 비용을 해결하고, 패치 기반 역추적 없이 20 초 내에 4K 이미지를 생성하면서도 뛰어난 화질을 유지하는 훈련 불필요 (training-free) 프레임워크인 'PixelRush'를 제안합니다.

Hong-Phuc Lai, Phong Nguyen, Anh Tran2026-03-02💻 cs

Beyond Ground: Map-Free LiDAR Relocalization for UAVs

이 논문은 UAV 의 비 GNSS 환경에서 고정밀 재로컬라이제이션을 가능하게 하는 맵 없는 LiDAR 프레임워크 MAILS 와 이를 평가하기 위한 대규모 데이터셋을 제안하며, 기존 자율주행 중심 방법론의 한계를 극복하고 UAV 비행 특성에 최적화된 성능을 입증합니다.

Hengyu Mu, Jianshi Wu, Yuxin Guo + 5 more2026-03-02⚡ eess

COOPERTRIM: Adaptive Data Selection for Uncertainty-Aware Cooperative Perception

이 논문은 협동 지각 시스템의 대역폭 제한 문제를 해결하기 위해 시간적 연속성을 활용한 적응형 데이터 선택 프레임워크인 COOPERTRIM 을 제안하여, 불필요한 정보 전송을 줄이면서도 정확도를 유지하거나 향상시키는 방법을 제시합니다.

Shilpa Mukhopadhyay, Amit Roy-Chowdhury, Hang Qiu2026-03-02💻 cs

Diff-Aid: Inference-time Adaptive Interaction Denoising for Rectified Text-to-Image Generation

Diff-Aid 는 텍스트와 이미지 특징 간의 동적 상호작용을 추론 시 적응적으로 조절하여 텍스트-이미지 생성 모델의 프롬프트 준수도와 시각적 품질을 향상시키는 경량 플러그인 모듈입니다.

Binglei Li, Mengping Yang, Zhiyu Tan + 2 more2026-03-02💻 cs

SceneTok: A Compressed, Diffusable Token Space for 3D Scenes

이 논문은 기존 3D 표현 방식보다 압축률이 1~3 배 높고 재구성 품질이 우수하며, 5 초 내 생성이 가능한 새로운 3D 씬 토크나이저 'SceneTok'을 제안합니다.

Mohammad Asim, Christopher Wewer, Jan Eric Lenssen2026-03-02🤖 cs.AI

Multimodal Dataset Distillation Made Simple by Prototype-Guided Data Synthesis

이 논문은 대규모 학습과 최적화 없이 CLIP 과 unCLIP 을 활용한 프로토타입 기반 데이터 합성 방식을 통해, 멀티모달 데이터 증류의 효율성과 아키텍처 간 일반화 성능을 획기적으로 개선하는 새로운 프레임워크를 제안합니다.

Junhyeok Choi, Sangwoo Mo, Minwoo Chae2026-03-02💻 cs

← 이전 다음 →