cs.CV 편의 논문 | Gist.Science

IV-tuning: Parameter-Efficient Transfer Learning for Infrared-Visible Tasks

이 논문은 프리트레인된 시각 모델의 파라미터를 동결하고 소수만 학습하여 적외선 - 가시광선 융합 작업의 일반화 성능과 계산 효율성을 극대화하는 새로운 파라미터 효율적 전이 학습 방법인 IV-tuning 을 제안하고 있습니다.

Yaming Zhang, Chenqiang Gao, Fangcen Liu + 4 more2026-02-27💻 cs

MomentMix Augmentation with Length-Aware DETR for Temporally Robust Moment Retrieval

이 논문은 짧은 비디오 순간을 정확하게 탐지하기 위해 프론트그라운드/배그라운드 혼합 증강 기법인 MomentMix 와 길이 예측을 개선하는 Length-Aware Decoder 를 제안하여, 기존 DETR 기반 모델의 성능을 크게 향상시킨 MomentMix Augmentation 과 Length-Aware DETR 을 소개합니다.

Seojeong Park, Jiho Choi, Kyungjune Baek + 1 more2026-02-27🤖 cs.AI

Joint Optimization for 4D Human-Scene Reconstruction in the Wild

이 논문은 웹 비디오에서 단안 영상을 이용해 인간과 장면의 접촉 제약을 통해 장면 기하학, 카메라 포즈, 인간 운동을 공동 최적화하는 4D 인간 - 장면 재구성 방법인 JOSH 와 이를 기반으로 학습된 효율적인 모델 JOSH3R 을 제안합니다.

Zhizheng Liu, Joe Lin, Wayne Wu + 1 more2026-02-27💻 cs

Diffusion or Non-Diffusion Adversarial Defenses: Rethinking the Relation between Classifier and Adversarial Purifier

이 논문은 확산 모델에 국한되지 않는 비확산 기반 적대적 정제 모델이 데이터 없이도 뛰어난 전이성과 색상 일반화 성능을 발휘하며, CIFAR-10 에서 훈련된 모델이 ImageNet 에서 확산 모델보다 우수한 성능을 보여 적대적 방어에서 확산 모델과 분류기의 관계를 재고해야 함을 주장합니다.

Yuan-Chih Chen, Chun-Shien Lu2026-02-27💻 cs

Dual-IPO: Dual-Iterative Preference Optimization for Text-to-Video Generation

이 논문은 CoT 추론과 자기 일관성 투표 등을 통해 보상 모델을 정교화하고 이를 기반으로 비디오 생성 모델을 반복적으로 최적화하는 'Dual-IPO' 프레임워크를 제안하여, 수동 주석 없이도 텍스트-비디오 생성의 품질과 인간 선호도 정렬을 획기적으로 향상시킨다는 점을 강조합니다.

Xiaomeng Yang, Mengping Yang, Jia Gong + 3 more2026-02-27🤖 cs.AI

RelaCtrl: Relevance-Guided Efficient Control for Diffusion Transformers

이 논문은 Diffusion Transformer 의 각 레이어별 제어 정보 관련성을 분석하여 불필요한 파라미터와 연산을 줄이고, 2 차원 셔플 믹서 (TDSM) 를 도입해 PixArt-delta 대비 15% 의 파라미터와 연산량으로 효율적이면서도 우수한 제어 생성 성능을 달성하는 'RelaCtrl' 프레임워크를 제안합니다.

Ke Cao, Jing Wang, Ao Ma + 11 more2026-02-27💻 cs

CLIP-Free, Label Free, Unsupervised Concept Bottleneck Models

이 논문은 CLIP 모델과 이미지-개념 레이블 없이도 임의의 고정된 시각 분류기를 비지도 방식으로 개념 병목 모델 (CBM) 로 변환하여 기존 CLIP 기반 CBM 보다 뛰어난 성능을 달성하는 새로운 방법론 (U-F $^2$ -CBM) 을 제안합니다.

Fawaz Sammani, Jonas Fischer, Nikos Deligiannis2026-02-27💻 cs

UniFuture: A 4D Driving World Model for Future Generation and Perception

이 논문은 2D 비디오 생성과 정적 인식의 한계를 극복하기 위해 외관과 기하학을 통합한 단일 4D 표현을 구축하고, 이중 잠재 공유 (DLS) 및 다중 스케일 잠재 상호작용 (MLI) 메커니즘을 통해 단일 프레임으로부터 기하학적으로 일관된 미래 4D 장면 시퀀스를 생성하는 'UniFuture'를 제안합니다.

Dingkang Liang, Dingyuan Zhang, Xin Zhou + 7 more2026-02-27💻 cs

GmNet: Revisiting Gating Mechanisms From A Frequency View

이 논문은 컨볼루션 정리에 영감을 받아 게이트 메커니즘을 주파수 관점에서 분석하고, 이를 바탕으로 저주파 편향을 줄이고 다양한 주파수 성분을 효율적으로 활용하는 경량 모델 GmNet 을 제안합니다.

Yifan Wang, Xu Ma, Yitian Zhang + 5 more2026-02-27💻 cs

ViT-Linearizer: Distilling Quadratic Knowledge into Linear-Time Vision Models

이 논문은 ViT-Linearizer 라는 크로스 아키텍처 증류 프레임워크를 통해 전역 자기주의의 이차적 복잡성을 선형 시간 순환 모델로 효과적으로 이전하여 고해상도 입력 처리 시 속도를 획기적으로 개선하고 Mamba 기반 아키텍처의 성능을 대폭 향상시키는 방법을 제시합니다.

Guoyizhe Wei, Rama Chellappa2026-02-27🤖 cs.AI

LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention

LAMM-ViT 는 얼굴 랜드마크를 기반으로 한 영역 유도 어텐션과 계층별 마스크 변조 모듈을 통합하여 다양한 생성 모델에서 발생하는 구조적 불일치를 포착함으로써, 기존 최첨단 방법보다 뛰어난 일반화 성능을 보이는 AI 합성 얼굴 탐지 모델입니다.

Jiangling Zhang, Weijie Zhu, Jirui Huang + 1 more2026-02-27💻 cs

Reflectance Prediction-based Knowledge Distillation for Robust 3D Object Detection in Compressed Point Clouds

본 논문은 제한된 대역폭 환경에서 반사도 정보를 전송하지 않고도 기하학적 반사도 예측 모듈과 지식 증류 기법을 활용하여 압축된 포인트 클라우드의 3D 객체 탐지 성능과 강인성을 향상시키는 새로운 프레임워크를 제안합니다.

Hao Jing, Anhong Wang, Yifan Zhang + 2 more2026-02-27💻 cs

Bridging Geometric and Semantic Foundation Models for Generalized Monocular Depth Estimation

이 논문은 지오메트릭 및 시맨틱 기반 모델을 융합하는 '브리징 게이트'와 어텐션 온도 스케일링 기법을 통해, 적은 학습 비용으로 복잡한 장면에서도 일반화된 단안 깊이 추정을 가능하게 하는 BriGeS 방법을 제안합니다.

Sanggyun Ma, Wonjoon Choi, Jihun Park + 4 more2026-02-27💻 cs

Sparse Imagination for Efficient Visual World Model Planning

이 논문은 계산 자원이 제한된 로봇 환경에서 효율성을 극대화하기 위해, 무작위 그룹 어텐션 전략을 기반으로 한 희소 훈련 비전 기반 세계 모델을 도입하여 추론 속도를 획기적으로 개선하면서도 제어 정확도를 유지하는 '희소 상상 (Sparse Imagination)' 기법을 제안합니다.

Junha Chun, Youngjoon Jeong, Taesup Kim2026-02-27🤖 cs.AI

LinGuinE: Longitudinal Guidance Estimation for Volumetric Tumour Segmentation

이 논문은 단일 방사선 전문의의 입력만으로 방사선 치료 계획 및 반응 평가를 위한 종단적 종양 분할 및 추적 성능을 획기적으로 개선한 새로운 프레임워크 'LinGuinE'를 제안하고, 네 개의 데이터셋을 통해 그 우수성을 입증했습니다.

Nadine Garibli, Mayank Patwari, Bence Csiba + 2 more2026-02-27⚡ eess

Human-Guided Shade Artifact Suppression in CBCT-to-MDCT Translation via Schrödinger Bridge with Conditional Diffusion

이 논문은 슈뢰딩거 브리지 기반의 조건부 확산 모델에 인간 피드백을 통합하여 CBCT 에서 MDCT 로의 변환 시 그림자 아티팩트를 효과적으로 억제하면서도 해부학적 정밀도와 선호도 정렬을 동시에 달성하는 새로운 프레임워크를 제안합니다.

Sung Ho Kang, Hyun-Cheol Park2026-02-27💻 cs

Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?

이 논문은 의료 영상 분할에서 데이터 부족 문제를 해결하기 위해 데이터 풀링 시 i.i.d. 가정보다 교환성 (exchangeability) 을 가정하고 인과적 프레임워크를 활용해 특징 불일치를 제어함으로써 데이터 추가 딜레마를 극복하고 여러 데이터셋에서 최첨단 성능을 달성하는 방법을 제안합니다.

Ayush Roy, Samin Enam, Jun Xia + 2 more2026-02-27🤖 cs.LG

← 이전 다음 →

cs.CV