cs.CV 편의 논문 | Gist.Science

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

이 논문은 확산 모델 추론 시 캐싱 오차를 예측하는 핵심 지표로 모델 출력의 민감도를 분석하여, 기존 휴리스틱 기반 방법의 한계를 극복하고 샘플별 동적으로 최적의 캐싱 시점을 선택하는 'SenCache' 프레임워크를 제안합니다.

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

이 논문은 현미경 이미지의 본질적인 다중 해상도 특성을 활용하기 위해 동일한 세계 좌표계에서 다양한 해상도의 관측치를 융합하는 새로운 트랜스포머 아키텍처인 MuViT 를 제안하고, 이를 통해 다양한 현미경 분석 작업에서 기존 모델보다 우수한 성능을 입증합니다.

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

이 논문은 8 만 개 이상의 선호도 쌍으로 구성된 SpatialReward-Dataset 과 이를 기반으로 구축된 SpatialScore 보상 모델을 통해 텍스트-이미지 생성 모델의 공간 관계 이해 능력을 강화하고, 이를 온라인 강화 학습에 적용하여 복잡한 공간적 묘사 성능을 획기적으로 개선하는 방법을 제시합니다.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

이 논문은 전이 학습에서 발생하는 일관성 드리프트와 기하학적 분해 문제를 해결하기 위해 궤적 정렬 및 이중 참조 구조 보정 메커니즘을 도입한 GTASR 을 제안하여, 단일 단계로 고품질의 실세계 이미지 초해상도를 효율적으로 달성하는 방법을 제시합니다.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

이 논문은 염색 및 스캐너 기술적 변이로 인한 배치 효과를 해결하기 위해 단일 소스 데이터셋에서 학습된 잠재 매니폴드 압축을 통해 배치 불변 임베딩을 생성하는 비지도 표현 학습 프레임워크인 '잠재 매니폴드 압축 (LMC)'을 제안하며, 이를 통해 다양한 데이터셋 간 분류 및 검출 작업에서 기존 방법보다 우수한 일반화 성능을 입증했습니다.

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

이 논문은 저수준 시각 특징과 고수준 행동 잠재 변수의 진화 속도 차이를 활용하여 계층적 인과 생성 과정을 모델링하고, 결정론적 과정과 희소 전이 제약을 통해 잠재 행동 변수의 식별성을 보장하는 약지도 행동 분할을 위한 계층적 행동 학습 (HAL) 모델을 제안하고 있습니다.

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

Mode Seeking meets Mean Seeking for Fast Long Video Generation

이 논문은 '모드 탐색 (Mode Seeking)'과 '평균 탐색 (Mean Seeking)'을 결합한 새로운 학습 패러다임을 제안하여, 제한된 장시간 데이터를 통한 서사적 일관성 학습과 짧은 영상 교사 모델로부터의 국소적 사실성 계승을 동시에 달성함으로써 고품질의 분 단위 긴 영상을 빠르게 생성하는 방법을 제시합니다.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection

이 논문은 라벨이 없는 초분광 이미지에서 복잡한 배경을 효과적으로 억제하고 다양한 도메인에 일반화할 수 있도록 확산 모델을 기반으로 한 새로운 배경 억제 확산 모델 (BSDM) 을 제안하여 초분광 이상 탐지 성능을 향상시킵니다.

Jitao Ma, Weiying Xie, Yunsong Li + 1 more2026-02-27💻 cs

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

이 논문은 반지도 학습과 잠재 확산 모델을 결합하여 주석 데이터에 대한 의존성을 줄이고 생성의 다양성을 향상시키며, 고해상도 및 빠른 생성을 가능하게 하는 새로운 PBR(물리 기반 렌더링) 재료 생성 방법인 StableMaterials 를 제안합니다.

Giuseppe Vecchio2026-02-27💻 cs

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

이 논문은 3D 인스턴스 분할을 위해 시맨틱 정보 기반의 혼합 쿼리 초기화 기법과 기하학적 특성을 강화한 인터리빙 트랜스포머 디코더를 제안하여 대규모 3D 장면에서도 정확도와 효율성을 동시에 달성한 SGIFormer 모델을 소개합니다.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture

이 논문은 다양한 위조 스타일의 혼합을 통해 미지의 도메인에 대한 일반화 능력을 향상시키고, 사전 학습된 비전 트랜스포머 (ViT) 에 경량 모듈만 추가하여 파라미터 효율성을 극대화하는 오픈셋 딥페이크 탐지 방법을 제안합니다.

Chenqi Kong, Anwei Luo, Peijun Bao + 5 more2026-02-27💻 cs

Abstracted Gaussian Prototypes for True One-Shot Concept Learning

이 논문은 사전 학습이나 지식 공학 없이 단일 예시만으로 작동하여 분류 및 생성 과제를 모두 수행하는 '진정한' 원샷 개념 학습을 가능하게 하는 추상 가우시안 프로토타입 (AGP) 프레임워크를 제안합니다.

Chelsea Zou, Kenneth J. Kurtz2026-02-27🤖 cs.AI

SplatSDF: Boosting SDF-NeRF via Architecture-Level Fusion with Gaussian Splats

이 논문은 3D 가우스 스플랫 (3DGS) 을 아키텍처 수준에서 직접 융합하여 SDF-NeRF 의 수렴 속도를 3 배 가속화하고 기하학적 정확도를 향상시킨 새로운 방법론인 SplatSDF 를 제안합니다.

Runfa Blark Li, Keito Suzuki, Bang Du + 3 more2026-02-27💻 cs

Distractor-free Generalizable 3D Gaussian Splatting

이 논문은 교차 장면 일반화 설정에서 방해 요소 (distractor) 로 인한 3D 불일치와 학습 불안정성을 해결하고, 보지 못한 장면에서 방해 요소가 없는 3D 가우시안 스플래팅과 마스크를 예측할 수 있는 새로운 프레임워크인 DGGS 를 제안합니다.

Yanqi Bao, Jing Liao, Jing Huo + 1 more2026-02-27💻 cs

From Open Vocabulary to Open World: Teaching Vision Language Models to Detect Novel Objects

이 논문은 오픈 보카불러리 검출 모델이 알려진 클래스와 유사한 근접 분포 외 (NOOD) 객체를 오분류하거나 원거리 분포 외 (FOOD) 객체를 무시하는 한계를 극복하기 위해, 의사 미지 임베딩과 멀티 스케일 대비 앵커 학습을 통해 미지 객체를 식별하고 점진적으로 학습하는 오픈 월드 객체 검출 프레임워크를 제안하여 자율 주행 및 표준 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.

Zizhao Li, Zhengkang Xiang, Joseph West + 1 more2026-02-27🤖 cs.AI

Enhancing Sketch Animation: Text-to-Video Diffusion Models with Temporal Consistency and Rigidity Constraints

이 논문은 텍스트 프롬프트를 기반으로 손으로 그린 스케치를 애니메이션화할 때, SDS 손실 함수를 활용하고 길이 - 면적 정규화와 ARAP 손실을 도입하여 시간적 일관성과 강성 (rigidity) 을 보장함으로써 기존 방법의 한계를 극복하고 최첨단 성능을 달성하는 새로운 접근법을 제시합니다.

Gaurav Rai, Ojaswa Sharma2026-02-27💻 cs

PPT: Pretraining with Pseudo-Labeled Trajectories for Motion Forecasting

이 논문은 오프더셸 3D 검출기 및 추적기에서 자동 생성된 더러운 (noisy) 궤적 데이터를 활용한 PPT(Pretraining with Pseudo-labeled Trajectories) 프레임워크를 제안하여, 적은 양의 라벨 데이터로도 다양한 환경에서 강인한 자율주행 모션 예측 성능을 달성하는 방법을 제시합니다.

Yihong Xu, Yuan Yin, Éloi Zablocki + 3 more2026-02-27💻 cs

IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

이 논문은 프리트레인된 시각 모델의 파라미터를 동결하고 소수만 학습하여 적외선 - 가시광선 융합 작업의 일반화 성능과 계산 효율성을 극대화하는 새로운 파라미터 효율적 전이 학습 방법인 IV-tuning 을 제안하고 있습니다.

Yaming Zhang, Chenqiang Gao, Fangcen Liu + 4 more2026-02-27💻 cs

MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval

이 논문은 짧은 비디오 순간을 정확하게 탐지하기 위해 프론트그라운드/배그라운드 혼합 증강 기법인 MomentMix 와 길이 예측을 개선하는 Length-Aware Decoder 를 제안하여, 기존 DETR 기반 모델의 성능을 크게 향상시킨 MomentMix Augmentation 과 Length-Aware DETR 을 소개합니다.

Seojeong Park, Jiho Choi, Kyungjune Baek + 1 more2026-02-27🤖 cs.AI

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

이 논문은 웹 비디오에서 단안 영상을 이용해 인간과 장면의 접촉 제약을 통해 장면 기하학, 카메라 포즈, 인간 운동을 공동 최적화하는 4D 인간 - 장면 재구성 방법인 JOSH 와 이를 기반으로 학습된 효율적인 모델 JOSH3R 을 제안합니다.

Zhizheng Liu, Joe Lin, Wayne Wu + 1 more2026-02-27💻 cs

← 이전 다음 →