cs.CV 편의 논문 | Gist.Science

CLAP: Unsupervised 3D Representation Learning for Fusion 3D Perception via Curvature Sampling and Prototype Learning

이 논문은 곡률 샘플링과 학습 가능한 프로토타입을 활용하여 이미지와 점구름의 상호 보완적 특성을 효율적으로 결합한 CLAP 이라는 새로운 비지도 3D 표현 학습 방법을 제안하며, 이를 통해 기존 최첨단 방법 대비 최대 2 배의 성능 향상을 달성함을 보여줍니다.

Runjian Chen, Hang Zhang, Avinash Ravichandran + 4 more2026-03-02💻 cs

GenVidBench: A 6-Million Benchmark for AI-Generated Video Detection

이 논문은 AI 생성 비디오 탐지 모델의 개발을 촉진하기 위해 678 만 개의 대규모 비디오와 11 가지 최첨단 생성 모델을 포함하는 'GenVidBench'라는 새로운 벤치마크를 제안합니다.

Zhenliang Ni, Qiangyu Yan, Mouxiao Huang + 5 more2026-03-02💻 cs

Multi-illuminant Color Constancy via Multi-scale Illuminant Estimation and Fusion

이 논문은 이미지 스케일의 영향을 고려하여 다중 스케일 이미지를 기반으로 한 삼중 분기 합성곱 네트워크와 주의 기반 융합 모듈을 통해 다중 조명 조건에서의 색수차를 보정하는 새로운 방법을 제안하고, 이를 통해 최첨단 성능을 달성했다고 요약할 수 있습니다.

Hang Luo, Rongwei Li, Jinxing Liang2026-03-02⚡ eess

DSV: Exploiting Dynamic Sparsity to Accelerate Large-Scale Video DiT Training

이 논문은 동적 희소성 패턴을 활용하여 3D 풀 어텐션의 계산 병목 현상을 해결하고, 하이브리드 희소성 인식 컨텍스트 병렬화를 통해 화질 저하 없이 대규모 비디오 DiT 학습 속도를 최대 3.02 배까지 향상시킨 DSV 를 제안합니다.

Xin Tan, Yuetao Chen, Yimin Jiang + 6 more2026-03-02💻 cs

Spread them Apart: Towards Robust Watermarking of Generated Content

이 논문은 생성된 콘텐츠의 소유권 분쟁과 윤리적 문제를 해결하기 위해 모델 재학습 없이 추론 단계에서 적용되며, 제한된 크기의 첨가적 교란과 다양한 제거 공격에 대해 강건한 워터마킹 기법을 제안합니다.

Mikhail Pautov, Danil Ivanov, Andrey V. Galichin + 2 more2026-03-02🤖 cs.AI

JiSAM: Alleviate Labeling Burden and Corner Case Problems in Autonomous Driving via Minimal Real-World Data

이 논문은 시뮬레이션 데이터의 도메인 격차와 샘플 효율성 문제를 해결하기 위해 제안된 'JiSAM' 방법을 통해, 실제 LiDAR 데이터의 2.5% 만으로도 최첨단 3D 객체 탐지 성능을 달성하고 라벨링이 없는 희귀 객체까지 효과적으로 인식할 수 있음을 보여줍니다.

Runjian Chen, Wenqi Shao, Bo Zhang + 3 more2026-03-02💻 cs

Autoregressive Image Generation with Randomized Parallel Decoding

이 논문은 기존 순차적 생성의 한계를 극복하고 무작위 병렬 디코딩을 통해 추론 속도와 메모리 효율성을 획기적으로 개선하며 제로샷 일반화 능력을 갖춘 새로운 시각적 자기회귀 모델 ARPG 를 제안합니다.

Haopeng Li, Jinyue Yang, Guoqi Li + 1 more2026-03-02💻 cs

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

이 논문은 기존 방법들의 투영 또는 분해된 모델 의존성을 극복하여 더 현실적인 3D 의미론적 장면 데이터를 직접 생성하는 새로운 접근법을 제안하고, 이를 자율주행용 의미 분할 네트워크의 학습 데이터로 활용할 때 성능이 향상됨을 입증합니다.

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

이 논문은 인간 시각의 선택적 주의 메커니즘에서 영감을 받아 '텍스트 절연 및 주의' 메커니즘을 도입하고, 새로운 벤치마크인 CVTG-2K 를 통해 복잡한 시각적 텍스트 생성의 정확성을 획기적으로 개선한 TextCrafter 프레임워크를 제안합니다.

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

이 논문은 모든 모달리티가 존재하지 않아도 되는 강인한 1 인칭 시점 행동 인식을 위해, 멀티모달 교사 모델의 지식을 배운 KARMMA 프레임워크를 제안하여 다양한 센서 구성에서도 재학습 없이 효율적으로 배포할 수 있음을 보여줍니다.

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

이 논문은 절차적 데이터 생성기의 매개변수를 체계적으로 분석하여 제로샷 스테레오 매칭 성능을 최적화하는 합성 데이터의 설계 요소를 규명하고, 이를 기반으로 오픈소스로 공개된 고품질 데이터셋을 구축하여 기존 데이터셋 혼합 학습보다 우수한 성능을 달성했음을 보여줍니다.

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

본 논문은 SAM2 기반의 해부학적 사전 지식 주입, 계층적 잔차 다운샘플링 모듈, 그리고 Fermat 나선 스캔을 활용한 양방향 Mamba 아키텍처를 결합하여 다중 모달 의료 영상 합성 시 전역적 일관성과 고충실도 국소 디테일을 동시에 확보하는 'FermatSyn'을 제안합니다.

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

이 논문은 위성 영상 시계열 (SITS) 데이터를 객체 수준으로 분석하기 위해 공간 및 시간적 상호작용을 모델링할 수 있는 그래프 기반 방법론의 통합을 검토하고, 범용 파이프라인을 제시하며 토지 피복 매핑 및 수자원 예측 사례를 통해 그 잠재력을 입증합니다.

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

이 논문은 채널별 기능 분해와 매니폴드 정규화를 통해 다양한 열화 유형을 효율적으로 처리하면서도 뛰어난 성능을 달성하는 새로운 이미지 복원 프레임워크인 MIRAGE 를 제안합니다.

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

이 논문은 제한된 기존 데이터셋의 한계를 극복하고 실제 환경으로의 일반화 성능을 검증하기 위해, 80 시간 분량의 15 개 영상과 16 가지 클래스로 구성된 3 가지 영역 (스태지드, 합성, 자연 발생) 을 아우르는 통합 벤치마크 'OmniFall'을 제안합니다.

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs

Cora: Correspondence-aware image editing using few step diffusion

이 논문은 구조적 변화가 필요한 이미지 편집 시 발생하는 아티팩트를 해결하고 원본의 구조와 질감을 정확히 유지하기 위해 대응 관계 기반 노이즈 보정과 보간된 어텐션 맵을 도입한 새로운 프레임워크 'Cora'를 제안합니다.

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs

ECAM: A Contrastive Learning Approach to Avoid Environmental Collision in Trajectory Forecasting

이 논문은 기존 궤적 예측 모델에 통합되어 환경적 충돌을 방지하는 능력을 크게 향상시키는 대비 학습 기반의 ECAM(환경 충돌 회피 모듈) 을 제안하고 ETH/UCY 데이터셋을 통해 그 유효성을 입증합니다.

Giacomo Rosin, Muhammad Rameez Ur Rahman, Sebastiano Vascon2026-03-02💻 cs

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

이 논문은 LLM 의 지식을 활용하여 텍스트 정보를 강화하고, CLIP 기반의 멀티모달 융합 및 다중 어텐션 메커니즘을 통해 도메인 간 선호도와 복잡한 사용자 관심을 효과적으로 포착함으로써 기존 방법보다 우수한 성능을 보이는 새로운 크로스 도메인 순차 추천 모델인 LLM-EMF 를 제안합니다.

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang + 5 more2026-03-02💻 cs

Distilling Balanced Knowledge from a Biased Teacher

이 논문은 편향된 교사 모델로부터 균형 잡힌 지식을 추출하기 위해 교차 그룹 손실과 그룹 내 손실을 재구성하고 각각을 보정 및 재가중하는 '장기 꼬리 지식 증류 (LTKD)' 프레임워크를 제안하여, 기존 방법들보다 전반적 및 꼬리 클래스 정확도에서 우수한 성능을 입증합니다.

Seonghak Kim2026-03-02💻 cs

Empowering Small VLMs to Think with Dynamic Memorization and Exploration

이 논문은 SFT 와 RLVR 간의 트레이드오프를 동적으로 관리하고 시각적 감독 메커니즘을 결합한 'DyME'라는 새로운 학습 패러다임을 제안함으로써, 제한된 용량의 소형 시각 - 언어 모델 (SVLM) 에도 안정적이고 효과적인 추론 능력을 부여하는 것을 목표로 합니다.

Jiazhen Liu, Yuchuan Deng, Long Chen2026-03-02💻 cs

← 이전 다음 →