cs.CV 편의 논문 | Gist.Science

Multimodal Dataset Distillation Made Simple by Prototype-Guided Data Synthesis

이 논문은 대규모 학습과 최적화 없이 CLIP 과 unCLIP 을 활용한 프로토타입 기반 데이터 합성 방식을 통해, 멀티모달 데이터 증류의 효율성과 아키텍처 간 일반화 성능을 획기적으로 개선하는 새로운 프레임워크를 제안합니다.

Junhyeok Choi, Sangwoo Mo, Minwoo Chae2026-03-02💻 cs

One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single Image

이 논문은 단일 이미지로부터 기하학적 일관성을 갖춘 탐험 가능한 3D 장면을 생성하기 위해 파노라마 생성, 3D 기하학적 구조 구축, 그리고 새로운 뷰 생성이라는 세 단계로 이루어진 One2Scene 프레임워크를 제안합니다.

Pengfei Wang, Liyi Chen, Zhiyuan Ma + 3 more2026-03-02💻 cs

Test-Time Training with KV Binding Is Secretly Linear Attention

이 논문은 테스트 시간 훈련 (TTT) 이 단순한 기억 메커니즘이 아니라, 학습된 선형 어텐션 연산자로 재해석될 수 있음을 보임으로써 모델의 동작을 설명하고 효율성을 개선하는 실용적 이점을 제시합니다.

Junchen Liu, Sven Elflein, Or Litany + 2 more2026-03-02🤖 cs.AI

FedVG: Gradient-Guided Aggregation for Enhanced Federated Learning

본 논문은 데이터 이질성으로 인한 클라이언트 드리프트 문제를 해결하기 위해 공개 검증 세트를 기반으로 레이어별 그래디언트 노름을 계산하여 클라이언트별 일반화 능력을 평가하고 이를 통해 적응적 집계 방식을 제안하는 'FedVG' 프레임워크를 소개합니다.

Alina Devkota, Jacob Thrasher, Donald Adjeroh + 2 more2026-03-02🤖 cs.AI

FlowFixer: Towards Detail-Preserving Subject-Driven Generation

이 논문은 스케일과 관점 변화로 인해 손실된 세부 정보를 복원하기 위해 언어 프롬프트의 모호성을 피하고 자기지도 학습 데이터 생성 및 키 포인트 매칭 기반 평가를 도입한 'FlowFixer'라는 정제 프레임워크를 제안하여 고충실도 주제 주도 생성의 새로운 기준을 제시합니다.

Jinyoung Jun, Won-Dong Jang, Wenbin Ouyang + 2 more2026-03-02💻 cs

From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

이 논문은 물리 법칙을 고려한 이미지 편집의 한계를 극복하기 위해 3 만 8 천 개의 물리 전이 데이터를 구축하고, 텍스트-시각 이중 추론 메커니즘을 갖춘 'PhysicEdit' 프레임워크를 제안하여 오픈소스 모델 중 물리적 사실성과 지식 기반 편집 성능을 획기적으로 개선했음을 보여줍니다.

Liangbing Zhao, Le Zhuo, Sayak Paul + 2 more2026-03-02💻 cs

SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance

이 논문은 fMRI 뇌 활동으로부터 동적 시각 경험을 재구성하는 새로운 프레임워크인 SemVideo 를 제안하며, 계층적 의미 정보 (SemMiner) 를 활용하여 기존 방법의 한계인 객체 일관성 부족과 시간적 비일관성 문제를 해결하고 최첨단 성능을 달성함을 보여줍니다.

Minghan Yang, Lan Yang, Ke Li + 3 more2026-03-02🤖 cs.AI

Don't let the information slip away

이 논문은 기존 객체 감지 모델이 배경의 맥락 정보를 간과한다는 점을 지적하고, 도로나 숲과 같은 배경 정보를 활용하여 COCO 데이터셋에서 최첨단 성능을 달성한 'Association DETR' 모델을 제안합니다.

Taozhe Li, Guansu Wang, Bo Yu + 2 more2026-03-02💻 cs

GFRRN: Explore the Gaps in Single Image Reflection Removal

이 논문은 사전 학습된 모델과 반사 제거 모델 간의 의미적 간극을 해소하고, 합성 및 실제 데이터의 레이블 불일치를 해결하며, 주파수 사전 지식과 동적 어텐션 메커니즘을 통해 단일 이미지 반사 제거 성능을 극대화하는 'GFRRN'을 제안합니다.

Yu Chen, Zewei He, Xingyu Liu + 2 more2026-03-02💻 cs

SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

이 논문은 텍스트 프롬프트에 명시된 동적 공간 관계를 정확히 반영하도록 텍스트-비디오 생성 모델을 개선하기 위해, 기하학적 기반의 DSR-SCORE 지표를 활용한 제로차 정규화 직접 선호도 최적화 (DPO) 를 포함한 자기 개선 프레임워크인 SPATIALALIGN 을 제안합니다.

Fengming Liu, Tat-Jen Cham, Chuanxia Zheng2026-03-02💻 cs

WARM-CAT: Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

이 논문은 테스트 시에 라벨 공간의 분포 변화로 인한 성능 저하를 해결하기 위해, 훈련 데이터를 기반으로 시각 및 텍스트 프로토타입을 사전 준비하고 적응형 가중치와 동적 우선순위 큐를 활용하여 미시적 조합을 학습하는 'WARM-CAT' 프레임워크를 제안하고, 새로운 벤치마크인 C-Fashion 데이터셋을 통해 최첨단 성능을 입증합니다.

Xudong Yan, Songhe Feng, Jiaxin Wang + 2 more2026-03-02💻 cs

Motion-aware Event Suppression for Event Cameras

이 논문은 IMU 와 자기 운동으로 인한 이벤트를 실시간으로 필터링하고 미래 운동을 예측하여 동적 이벤트를 사전에 억제하는 최초의 프레임워크를 제안하며, 기존 최첨단 방법보다 정확도와 추론 속도를 크게 향상시키고 토큰 가지치기를 통한 비전 트랜스포머 가속화 및 시각 오도메트리 정확도 개선 등 하류 응용 분야에 상당한 이점을 입증합니다.

Roberto Pellerito, Nico Messikommer, Giovanni Cioffi + 2 more2026-03-02💻 cs

Analytical Expression for Spherically Symmetric Photoacoustic Sources: A Unified General Solution (Theoretical Analysis and Derivation)

이 논문은 구대칭 초기 압력 분포를 갖는 광음향 소스에 대한 파동 방정식으로부터 보편적인 해석적 일반 해를 유도하고, 다양한 분포에 대한 구체적 식과 원거리 근사식을 제시하며, 이를 위한 초고속 전방 시뮬레이션 코드를 오픈소스로 공개합니다.

Shuang Li, Yibing Wang, Yu Zhang + 1 more2026-03-02🔬 physics.optics

← 이전 다음 →

cs.CV

Multimodal Dataset Distillation Made Simple by Prototype-Guided Data Synthesis

One2Scene: Geometric Consistent Explorable 3D Scene Generation from a Single Image

Test-Time Training with KV Binding Is Secretly Linear Attention

FedVG: Gradient-Guided Aggregation for Enhanced Federated Learning

FlowFixer: Towards Detail-Preserving Subject-Driven Generation

From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance

Don't let the information slip away

GFRRN: Explore the Gaps in Single Image Reflection Removal

SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

WARM-CAT: Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

Motion-aware Event Suppression for Event Cameras

Analytical Expression for Spherically Symmetric Photoacoustic Sources: A Unified General Solution (Theoretical Analysis and Derivation)

Leveraging large multimodal models for audio-video deepfake detection: a pilot study

Demystifying Action Space Design for Robotic Manipulation Policies

DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation

SALIENT: Frequency-Aware Paired Diffusion for Controllable Long-Tail CT Detection

Multiprojective Geometry of Compatible Triples of Fundamental and Essential Matrices

SGDC: Structurally-Guided Dynamic Convolution for Medical Image Segmentation

SegReg: Latent Space Regularization for Improved Medical Image Segmentation