cs.CV 편의 논문 | Gist.Science

Word-Anchored Temporal Forgery Localization

이 논문은 기존 시간적 위조 국소화 방법의 한계를 극복하기 위해, 언어적 경계에 기반한 단어 단위 이진 분류 패러다임과 위조 특징 정렬 모듈, 그리고 불균형 데이터 처리를 위한 비대칭 손실 함수를 도입한 'WAFL'을 제안하여 높은 정확도와 효율성을 달성함을 보여줍니다.

Tianyi Wang, Xi Shao, Harry Cheng, Yinglong Wang, Mohan Kankanhalli2026-03-09💻 cs

Low-latency Event-based Object Detection with Spatially-Sparse Linear Attention

이 논문은 이벤트 카메라의 공간적 희소성을 활용하여 긴 시퀀스 훈련의 병렬화와 추론 시의 낮은 지연 시간을 동시에 달성하는 '공간적 희소 선형 어텐션 (SSLA)'을 제안하고, 이를 기반으로 한 SSLA-Det 모델을 통해 기존 비동기식 방법 대비 20 배 이상의 계산 효율 향상과 함께 최첨단 객체 탐지 정확도를 달성했다고 요약할 수 있습니다.

Haiqing Hao, Zhipeng Sui, Rong Zou, Zijia Dai, Nikola Zubic, Davide Scaramuzza, Wenhui Wang2026-03-09💻 cs

TaPD: Temporal-adaptive Progressive Distillation for Observation-Adaptive Trajectory Forecasting in Autonomous Driving

이 논문은 가변적인 관측 길이를 가진 자율주행 환경에서 과거 데이터의 누락을 보충하고 장기적 운동 패턴을 지식 증류로 전이하는 'TaPD' 프레임워크를 제안하여, 특히 짧은 관측 데이터에서도 기존 방법들보다 뛰어난 궤적 예측 성능을 달성함을 보여줍니다.

Mingyu Fan, Yi Liu, Hao Zhou, Deheng Qian, Mohammad Haziq Khan, Matthias Raetsch2026-03-09🤖 cs.AI

DC-Merge: Improving Model Merging with Directional Consistency

이 논문은 여러 작업 간 특이 공간의 방향적 일관성을 유지하기 위해 작업 벡터의 에너지 분포를 균형화하고 공유 직교 부분 공간에 정렬하는 'DC-Merge' 방법을 제안하여 모델 병합 성능을 획기적으로 개선합니다.

Han-Chen Zhang, Zi-Hao Zhou, Mao-Lin Luo, Shimin Di, Min-Ling Zhang, Tong Wei2026-03-09🤖 cs.LG

Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation

이 논문은 2D 분할 마스크를 활용한 계층적 시각 의미 분해와 점군 및 언어 간의 점진적 다중 수준 융합을 통해 3D 장면에서 자연어에 기반한 정밀한 객체 분할을 가능하게 하는 HCF-RES 프레임워크를 제안합니다.

Keshen Zhou, Runnan Chen, Mingming Gong, Tongliang Liu2026-03-09💻 cs

NOVA: Next-step Open-Vocabulary Autoregression for 3D Multi-Object Tracking in Autonomous Driving

이 논문은 대규모 언어 모델의 자기회귀 능력을 활용하여 3D 객체 추적을 시공간적 의미 시퀀스 생성 문제로 재정의함으로써, 기존 폐쇄집합 기반 방법론의 한계를 극복하고 미지의 객체에 대한 일반화 성능을 획기적으로 향상시킨 'NOVA'라는 새로운 패러다임을 제안합니다.

Kai Luo, Xu Wang, Rui Fan, Kailun Yang2026-03-09💻 cs

GazeMoE: Perception of Gaze Target with Mixture-of-Experts

이 논문은 고정된 비전 기반 모델을 활용하여 눈, 머리 방향, 제스처 및 맥락적 단어를 적응적으로 결합하는 'GazeMoE'라는 새로운 프레임워크를 제안함으로써, 로봇이 인간의 주시 대상을 파악하는 데 있어 기존 방법보다 뛰어난 성능을 달성함을 보여줍니다.

Zhuangzhuang Dai, Zhongxi Lu, Vincent G. Zakka, Luis J. Manso, Jose M Alcaraz Calero, Chen Li2026-03-09🤖 cs.AI

ODD-SEC: Onboard Drone Detection with a Spinning Event Camera

이 논문은 이동체 탑재용 실시간 드론 탐지 시스템인 ODD-SEC 를 제안하며, 360 도 시야를 제공하는 회전형 이벤트 카메라와 모션 보상이 불필요한 새로운 이벤트 표현 방식을 통해 기존 프레임 기반 시스템의 한계를 극복하고 정밀한 드론 탐지 및 방향 추정을 가능하게 합니다.

Kuan Dai, Hongxin Zhang, Sheng Zhong, Yi Zhou2026-03-09💻 cs

HiPP-Prune: Hierarchical Preference-Conditioned Structured Pruning for Vision-Language Models

이 논문은 비전-언어 모델의 압축 과정에서 발생하는 객체 환각 문제를 완화하면서도 작업 유용성과 압축률 간의 균형을 사용자가 제어할 수 있도록, 시각 민감도 신호와 다목적 강화학습을 활용한 계층적 선호도 기반 구조 가지치기 프레임워크인 HiPP-Prune 을 제안합니다.

Lincen Bai, Hedi Tabia, Raul Santos-Rodriguez2026-03-09🤖 cs.AI

Spectral and Trajectory Regularization for Diffusion Transformer Super-Resolution

이 논문은 확산 트랜스포머 (DiT) 기반의 초해상도 모델에서 발생하는 궤적 불일치 및 주기적 아티팩트 문제를 해결하기 위해 주파수 분포 매칭과 비대칭 판별식 증류 아키텍처를 도입한 'StrSR'이라는 원스텝 증류 프레임워크를 제안합니다.

Jingkai Wang, Yixin Tang, Jue Gong, Jiatong Li, Shu Li, Libo Liu, Jianliang Lan, Yutong Liu, Yulun Zhang2026-03-09💻 cs

Can we Trust Unreliable Voxels? Exploring 3D Semantic Occupancy Prediction under Label Noise

이 논문은 3D 시맨틱 오큐팬시 예측에서 발생하는 레이블 노이즈 문제를 해결하기 위해, 기존 2D 기법의 한계를 극복하고 신뢰할 수 있는 감독 신호를 구축하는 새로운 벤치마크 'OccNL'과 이중 소스 부분 레이블 추론을 활용한 'DPR-Occ' 프레임워크를 제안합니다.

Wenxin Li, Kunyu Peng, Di Wen, Junwei Zheng, Jiale Wei, Mengfei Duan, Yuheng Zhang, Rui Fan, Kailun Yang2026-03-09💻 cs

Attribute Distribution Modeling and Semantic-Visual Alignment for Generative Zero-shot Learning

이 논문은 생성 제로샷 학습에서 클래스 간 격차와 의미-시각 도메인 간격을 해결하기 위해 클래스별 속성 분포를 모델링하고 시각 구조에 맞춰 의미 표현을 정렬하는 'ADiVA' 방법을 제안하여 기존 최첨단 기법들을 크게 능가하는 성능을 입증합니다.

Haojie Pu, Zhuoming Li, Yongbiao Gao, Yuheng Jia2026-03-09💻 cs

FlowMotion: Training-Free Flow Guidance for Video Motion Transfer

본 논문은 사전 학습된 텍스트 - 비디오 생성 모델의 초기 잠재 예측을 직접 활용하여 시간적 정보를 추출하고 속도 정규화 전략을 도입함으로써, 기존 방법 대비 계산 비용과 유연성 문제를 해결하는 효율적이고 훈련이 필요 없는 비디오 모션 전이 프레임워크인 FlowMotion 을 제안합니다.

Zhen Wang, Youcan Xu, Jun Xiao, Long Chen2026-03-09💻 cs

3D CBCT Artefact Removal Using Perpendicular Score-Based Diffusion Models

이 논문은 2D 투영 간의 상관관계를 고려하지 않는 기존 방법의 한계를 극복하기 위해, 서로 다른 두 평면에서 학습된 수직 스코어 기반 확산 모델을 결합하여 치과 CBCT 영상의 임플란트 아티팩트를 제거하는 3D 인페인팅 기법을 제안하고 그 유효성을 입증합니다.

Susanne Schaub, Florentin Bieder, Matheus L. Oliveira, Yulan Wang, Dorothea Dagassan-Berndt, Michael M. Bornstein, Philippe C. Cattin2026-03-09🤖 cs.LG

DEX-AR: A Dynamic Explainability Method for Autoregressive Vision-Language Models

이 논문은 자동회귀 비전 - 언어 모델의 복잡한 토큰 생성 과정과 시각 - 언어 상호작용을 해석하기 위해, 레이어별 그래디언트와 동적 헤드 필터링을 통해 토큰 및 시퀀스 수준의 2D 히트맵을 생성하는 새로운 설명 가능성 방법인 DEX-AR 을 제안하고 다양한 벤치마크에서 그 유효성을 입증합니다.

Walid Bousselham, Angie Boggust, Hendrik Strobelt, Hilde Kuehne2026-03-09🤖 cs.AI

Latent Transfer Attack: Adversarial Examples via Generative Latent Spaces

이 논문은 사전 학습된 생성 모델의 잠재 공간에서 교란을 최적화하여 기존 픽셀 기반 공격보다 이종 모델 간 전이 성능이 뛰어나고 고주파 노이즈가 적은 새로운 적대적 예제 공격 기법인 LTA 를 제안합니다.

Eitan Shaar, Ariel Shaulov, Yalcin Tur, Gal Chechik, Ravid Shwartz-Ziv2026-03-09💻 cs

WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

이 논문은 고정된 텍스트 프롬프트와 공간 도메인 특징의 한계를 극복하기 위해, 변분 오토인코더 기반의 글로벌 의미 표현과 웨이블릿 분해를 활용한 다중 주파수 특징을 통합한 'WMoE-CLIP'을 제안하여 14 개 산업 및 의료 데이터셋에서 제로샷 이상 탐지 성능을 입증했습니다.

Peng Chen, Chao Huang2026-03-09💻 cs

P-SLCR: Unsupervised Point Cloud Semantic Segmentation via Prototypes Structure Learning and Consistent Reasoning

이 논문은 주석 데이터 없이 포인트 클라우드 시맨틱 분할을 수행하기 위해 일관된 구조 학습과 일관된 추론을 기반으로 한 프로토타입 라이브러리 구동 방식인 P-SLCR 을 제안하며, S3DIS, SemanticKITTI, Scannet 데이터셋에서 기존 비지도 방법 및 PointNet 과 같은 완전 지도 방법보다 우수한 성능을 입증했습니다.

Lixin Zhan, Jie Jiang, Tianjian Zhou, Yukun Du, Yan Zheng, Xuehu Duan2026-03-09💻 cs

The Art That Poses Back: Assessing AI Pastiches after Contemporary Artworks

이 논문은 12 명의 현대 예술가들의 참여를 통해 ChatGPT 가 생성한 원작의 파스티시 (pastiche) 를 분석한 결과, AI 는 색채나 질감은 모방할 수 있으나 구성, 개념, 정서적 깊이 등 본질적인 측면에서 한계를 보였음을 밝히고 단일 지표 대신 다각적인 평가 도구의 필요성을 주장합니다.

Anca Dinu, Andreiana Mihail, Andra-Maria Florescu, Claudiu Creanga2026-03-09💬 cs.CL

WorldCache: Accelerating World Models for Free via Heterogeneous Token Caching

이 논문은 멀티모달 결합과 비균일한 시간 역학으로 인한 기존 캐싱 기법의 한계를 극복하기 위해 곡률 기반 예측과 혼돈 우선 적응적 스킵핑을 도입한 'WorldCache'를 제안하여, 학습 없이도 확산 기반 월드 모델의 추론 속도를 최대 3.7 배 가속화하면서도 롤아웃 품질을 98% 유지한다고 요약할 수 있습니다.

Weilun Feng, Guoxin Fan, Haotong Qin, Chuanguang Yang, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Dingrui Wang, Longlong Liao, Michele Magno, Yongjun Xu2026-03-09💻 cs

← 이전 다음 →