cs.CV 편의 논문 | Gist.Science

FedVG: Gradient-Guided Aggregation for Enhanced Federated Learning

본 논문은 데이터 이질성으로 인한 클라이언트 드리프트 문제를 해결하기 위해 공개 검증 세트를 기반으로 레이어별 그래디언트 노름을 계산하여 클라이언트별 일반화 능력을 평가하고 이를 통해 적응적 집계 방식을 제안하는 'FedVG' 프레임워크를 소개합니다.

Alina Devkota, Jacob Thrasher, Donald Adjeroh + 2 more2026-03-02🤖 cs.AI

FlowFixer: Towards Detail-Preserving Subject-Driven Generation

이 논문은 스케일과 관점 변화로 인해 손실된 세부 정보를 복원하기 위해 언어 프롬프트의 모호성을 피하고 자기지도 학습 데이터 생성 및 키 포인트 매칭 기반 평가를 도입한 'FlowFixer'라는 정제 프레임워크를 제안하여 고충실도 주제 주도 생성의 새로운 기준을 제시합니다.

Jinyoung Jun, Won-Dong Jang, Wenbin Ouyang + 2 more2026-03-02💻 cs

From Statics to Dynamics: Physics-Aware Image Editing with Latent Transition Priors

이 논문은 물리 법칙을 고려한 이미지 편집의 한계를 극복하기 위해 3 만 8 천 개의 물리 전이 데이터를 구축하고, 텍스트-시각 이중 추론 메커니즘을 갖춘 'PhysicEdit' 프레임워크를 제안하여 오픈소스 모델 중 물리적 사실성과 지식 기반 편집 성능을 획기적으로 개선했음을 보여줍니다.

Liangbing Zhao, Le Zhuo, Sayak Paul + 2 more2026-03-02💻 cs

SemVideo: Reconstructs What You Watch from Brain Activity via Hierarchical Semantic Guidance

이 논문은 fMRI 뇌 활동으로부터 동적 시각 경험을 재구성하는 새로운 프레임워크인 SemVideo 를 제안하며, 계층적 의미 정보 (SemMiner) 를 활용하여 기존 방법의 한계인 객체 일관성 부족과 시간적 비일관성 문제를 해결하고 최첨단 성능을 달성함을 보여줍니다.

Minghan Yang, Lan Yang, Ke Li + 3 more2026-03-02🤖 cs.AI

Don't let the information slip away

이 논문은 기존 객체 감지 모델이 배경의 맥락 정보를 간과한다는 점을 지적하고, 도로나 숲과 같은 배경 정보를 활용하여 COCO 데이터셋에서 최첨단 성능을 달성한 'Association DETR' 모델을 제안합니다.

Taozhe Li, Guansu Wang, Bo Yu + 2 more2026-03-02💻 cs

GFRRN: Explore the Gaps in Single Image Reflection Removal

이 논문은 사전 학습된 모델과 반사 제거 모델 간의 의미적 간극을 해소하고, 합성 및 실제 데이터의 레이블 불일치를 해결하며, 주파수 사전 지식과 동적 어텐션 메커니즘을 통해 단일 이미지 반사 제거 성능을 극대화하는 'GFRRN'을 제안합니다.

Yu Chen, Zewei He, Xingyu Liu + 2 more2026-03-02💻 cs

SPATIALALIGN: Aligning Dynamic Spatial Relationships in Video Generation

이 논문은 텍스트 프롬프트에 명시된 동적 공간 관계를 정확히 반영하도록 텍스트-비디오 생성 모델을 개선하기 위해, 기하학적 기반의 DSR-SCORE 지표를 활용한 제로차 정규화 직접 선호도 최적화 (DPO) 를 포함한 자기 개선 프레임워크인 SPATIALALIGN 을 제안합니다.

Fengming Liu, Tat-Jen Cham, Chuanxia Zheng2026-03-02💻 cs

WARM-CAT: Warm-Started Test-Time Comprehensive Knowledge Accumulation for Compositional Zero-Shot Learning

이 논문은 테스트 시에 라벨 공간의 분포 변화로 인한 성능 저하를 해결하기 위해, 훈련 데이터를 기반으로 시각 및 텍스트 프로토타입을 사전 준비하고 적응형 가중치와 동적 우선순위 큐를 활용하여 미시적 조합을 학습하는 'WARM-CAT' 프레임워크를 제안하고, 새로운 벤치마크인 C-Fashion 데이터셋을 통해 최첨단 성능을 입증합니다.

Xudong Yan, Songhe Feng, Jiaxin Wang + 2 more2026-03-02💻 cs

Motion-aware Event Suppression for Event Cameras

이 논문은 IMU 와 자기 운동으로 인한 이벤트를 실시간으로 필터링하고 미래 운동을 예측하여 동적 이벤트를 사전에 억제하는 최초의 프레임워크를 제안하며, 기존 최첨단 방법보다 정확도와 추론 속도를 크게 향상시키고 토큰 가지치기를 통한 비전 트랜스포머 가속화 및 시각 오도메트리 정확도 개선 등 하류 응용 분야에 상당한 이점을 입증합니다.

Roberto Pellerito, Nico Messikommer, Giovanni Cioffi + 2 more2026-03-02💻 cs

Analytical Expression for Spherically Symmetric Photoacoustic Sources: A Unified General Solution (Theoretical Analysis and Derivation)

이 논문은 구대칭 초기 압력 분포를 갖는 광음향 소스에 대한 파동 방정식으로부터 보편적인 해석적 일반 해를 유도하고, 다양한 분포에 대한 구체적 식과 원거리 근사식을 제시하며, 이를 위한 초고속 전방 시뮬레이션 코드를 오픈소스로 공개합니다.

Shuang Li, Yibing Wang, Yu Zhang + 1 more2026-03-02🔬 physics.optics

Leveraging large multimodal models for audio-video deepfake detection: a pilot study

이 논문은 Qwen 2.5 Omni 를 기반으로 오디오와 비디오 스트림을 통합 분석하여 오디오 - 비디오 딥페이크 탐지를 수행하는 새로운 모델 'AV-LMMDetect'를 제안하고, FakeAVCeleb 및 Mavos-DD 데이터셋에서 기존 방법들을 능가하는 성능을 입증했습니다.

Songjun Cao, Yuqi Li, Yunpeng Luo + 2 more2026-03-02💻 cs

Demystifying Action Space Design for Robotic Manipulation Policies

이 논문은 13,000 회 이상의 실제 로봇 수행 데이터를 기반으로 행동 공간 (action space) 의 시간적·공간적 설계가 로봇 조작 정책 학습에 결정적인 영향을 미친다는 것을 실증적으로 규명하고, 델타 (delta) 행동 예측의 우수성과 관절 공간 및 작업 공간 표현의 상호 보완적 강점을 제시합니다.

Yuchun Feng, Jinliang Zheng, Zhihao Wang + 5 more2026-03-02💻 cs

DesignSense: A Human Preference Dataset and Reward Modeling Framework for Graphic Layout Generation

이 논문은 그래픽 레이아웃 생성의 인간 선호도를 평가하기 위해 대규모 데이터셋 'DesignSense-10k'와 이를 기반으로 한 보상 모델 'DesignSense'를 제안하며, 기존 모델 대비 성능을 크게 향상시키고 레이아웃 생성의 질을 실질적으로 개선함을 보여줍니다.

Varun Gopal, Rishabh Jain, Aradhya Mathur + 6 more2026-03-02🤖 cs.AI

SALIENT: Frequency-Aware Paired Diffusion for Controllable Long-Tail CT Detection

이 논문은 희귀 병변 탐지의 장기 꼬리 문제를 해결하기 위해, 웨이블릿 도메인에서 주파수 정보를 활용한 조건부 확산 모델을 도입하여 제어 가능한 합성 데이터 생성을 가능하게 하고 탐지 성능을 획기적으로 개선한 SALIENT 프레임워크를 제안합니다.

Yifan Li, Mehrdad Salimitari, Taiyu Zhang + 2 more2026-03-02⚡ eess

Multiprojective Geometry of Compatible Triples of Fundamental and Essential Matrices

이 논문은 Bråtelund 과 Rydell 이 제기한 질문의 첫 번째 중요한 사례로, 호환되는 세 개의 기본 행렬 (fundamental matrix) 과 기본 행렬 (essential matrix) 의 기하학적 호환성 다양체를 완전히 특징짓는 새로운 4 차 다항식 제약 조건과 다중 차수를 계산하여 기존 연구의 불완전한 대수적 제약을 보완합니다.

Timothy Duff, Viktor Korotynskiy, Anton Leykin + 1 more2026-03-02🔢 math

SGDC: Structurally-Guided Dynamic Convolution for Medical Image Segmentation

이 논문은 의료 영상 분할에서 평균 풀링으로 인한 고주파 공간 정보 손실 문제를 해결하기 위해, 명시적으로 지도된 구조 추출 분기를 통해 동적 커널을 생성하는 구조 유도 동적 합성곱 (SGDC) 메커니즘을 제안하고, 이를 통해 경계 충실도를 크게 향상시킨 것을 보여줍니다.

Bo Shi, Wei-ping Zhu, M. N. S. Swamy2026-03-02⚡ eess

SegReg: Latent Space Regularization for Improved Medical Image Segmentation

이 논문은 U-Net 의 잠재 공간에 정규화를 도입하여 예측의 일반화 능력을 향상시키고, 추가 파라미터 없이도 지속 학습에서의 과업 간 전이와 드리프트 감소를 가능하게 하는 'SegReg' 프레임워크를 제안하고 의료 영상 분할 작업에서 그 유효성을 입증합니다.

Puru Vaish, Amin Ranem, Felix Meister + 3 more2026-03-02⚡ eess

Modelling and Simulation of Neuromorphic Datasets for Anomaly Detection in Computer Vision

이 논문은 동적 비전 센서 (DVS) 데이터의 부족 문제를 해결하기 위해 유니티 엔진 기반의 ANTShapes 프레임워크를 소개하여, 통계적 원리를 적용해 다양한 3D 장면과 객체 행동을 시뮬레이션하고 이상 탐지 등 컴퓨터 비전 연구에 필요한 맞춤형 뉴로모픽 데이터셋을 생성할 수 있도록 합니다.

Mike Middleton, Teymoor Ali, Hakan Kayan + 6 more2026-03-02🤖 cs.LG

All in One: Unifying Deepfake Detection, Tampering Localization, and Source Tracing with a Robust Landmark-Identity Watermark

이 논문은 얼굴 랜드마크와 고유 식별자를 구조적으로 결합한 152 차원의 'LIDMark' 워터마크와 Factorized-Head Decoder 를 활용하여 딥페이크 탐지, 변조 위치 특정, 출처 추적을 하나의 통합된 프레임워크로 동시에 수행하는 강력한 프로액티브 포렌식 솔루션을 제안합니다.

Junjiang Wu, Liejun Wang, Zhiqing Guo2026-03-02💻 cs

Few-Shot Continual Learning for 3D Brain MRI with Frozen Foundation Models

이 논문은 뇌 MRI 의 3D 의료 영상에서 파생된 사전 학습된 기반 모델을 고정하고 각 작업별 저랭크 적응 (LoRA) 모듈만 학습함으로써, 제한된 라벨 데이터 하에서 순차적 학습 시 이전 작업의 망각을 완전히 제거하고 두 가지 다른 작업 (종양 분할 및 뇌 나이 추정) 에서 균형 잡힌 성능을 달성하는 Few-Shot continual learning 방법을 제안합니다.

Chi-Sheng Chen, Xinyu Zhang, Guan-Ying Chen + 3 more2026-03-02⚡ eess

← 이전 다음 →