cs.CV 편의 논문 | Gist.Science

Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving

이 논문은 기존 방법들의 투영 또는 분해된 모델 의존성을 극복하여 더 현실적인 3D 의미론적 장면 데이터를 직접 생성하는 새로운 접근법을 제안하고, 이를 자율주행용 의미 분할 네트워크의 학습 데이터로 활용할 때 성능이 향상됨을 입증합니다.

Lucas Nunes, Rodrigo Marcuzzi, Jens Behley + 1 more2026-03-02💻 cs

Investigating Text Insulation and Attention Mechanisms for Complex Visual Text Generation

이 논문은 인간 시각의 선택적 주의 메커니즘에서 영감을 받아 '텍스트 절연 및 주의' 메커니즘을 도입하고, 새로운 벤치마크인 CVTG-2K 를 통해 복잡한 시각적 텍스트 생성의 정확성을 획기적으로 개선한 TextCrafter 프레임워크를 제안합니다.

Ying Tai, Nikai Du, Rui Xie + 5 more2026-03-02💻 cs

Multimodal Knowledge Distillation for Egocentric Action Recognition Robust to Missing Modalities

이 논문은 모든 모달리티가 존재하지 않아도 되는 강인한 1 인칭 시점 행동 인식을 위해, 멀티모달 교사 모델의 지식을 배운 KARMMA 프레임워크를 제안하여 다양한 센서 구성에서도 재학습 없이 효율적으로 배포할 수 있음을 보여줍니다.

Maria Santos-Villafranca, Dustin Carrión-Ojeda, Alejandro Perez-Yus + 3 more2026-03-02💻 cs

What Makes Good Synthetic Training Data for Zero-Shot Stereo Matching?

이 논문은 절차적 데이터 생성기의 매개변수를 체계적으로 분석하여 제로샷 스테레오 매칭 성능을 최적화하는 합성 데이터의 설계 요소를 규명하고, 이를 기반으로 오픈소스로 공개된 고품질 데이터셋을 구축하여 기존 데이터셋 혼합 학습보다 우수한 성능을 달성했음을 보여줍니다.

David Yan, Alexander Raistrick, Jia Deng2026-03-02💻 cs

FermatSyn: SAM2-Enhanced Bidirectional Mamba with Isotropic Spiral Scanning for Multi-Modal Medical Image Synthesis

본 논문은 SAM2 기반의 해부학적 사전 지식 주입, 계층적 잔차 다운샘플링 모듈, 그리고 Fermat 나선 스캔을 활용한 양방향 Mamba 아키텍처를 결합하여 다중 모달 의료 영상 합성 시 전역적 일관성과 고충실도 국소 디테일을 동시에 확보하는 'FermatSyn'을 제안합니다.

Feng Yuan2026-03-02⚡ eess

On the use of Graphs for Satellite Image Time Series

이 논문은 위성 영상 시계열 (SITS) 데이터를 객체 수준으로 분석하기 위해 공간 및 시간적 상호작용을 모델링할 수 있는 그래프 기반 방법론의 통합을 검토하고, 범용 파이프라인을 제시하며 토지 피복 매핑 및 수자원 예측 사례를 통해 그 잠재력을 입증합니다.

Corentin Dufourg, Charlotte Pelletier, Stéphane May + 1 more2026-03-02💻 cs

Efficient Degradation-agnostic Image Restoration via Channel-Wise Functional Decomposition and Manifold Regularization

이 논문은 채널별 기능 분해와 매니폴드 정규화를 통해 다양한 열화 유형을 효율적으로 처리하면서도 뛰어난 성능을 달성하는 새로운 이미지 복원 프레임워크인 MIRAGE 를 제안합니다.

Bin Ren, Yawei Li, Xu Zheng + 6 more2026-03-02💻 cs

OmniFall: From Staged Through Synthetic to Wild, A Unified Multi-Domain Dataset for Robust Fall Detection

이 논문은 제한된 기존 데이터셋의 한계를 극복하고 실제 환경으로의 일반화 성능을 검증하기 위해, 80 시간 분량의 15 개 영상과 16 가지 클래스로 구성된 3 가지 영역 (스태지드, 합성, 자연 발생) 을 아우르는 통합 벤치마크 'OmniFall'을 제안합니다.

David Schneider, Zdravko Marinov, Zeyun Zhong + 5 more2026-03-02💻 cs

Cora: Correspondence-aware image editing using few step diffusion

이 논문은 구조적 변화가 필요한 이미지 편집 시 발생하는 아티팩트를 해결하고 원본의 구조와 질감을 정확히 유지하기 위해 대응 관계 기반 노이즈 보정과 보간된 어텐션 맵을 도입한 새로운 프레임워크 'Cora'를 제안합니다.

Amirhossein Alimohammadi, Aryan Mikaeili, Sauradip Nag + 3 more2026-03-02💻 cs

ECAM: A Contrastive Learning Approach to Avoid Environmental Collision in Trajectory Forecasting

이 논문은 기존 궤적 예측 모델에 통합되어 환경적 충돌을 방지하는 능력을 크게 향상시키는 대비 학습 기반의 ECAM(환경 충돌 회피 모듈) 을 제안하고 ETH/UCY 데이터셋을 통해 그 유효성을 입증합니다.

Giacomo Rosin, Muhammad Rameez Ur Rahman, Sebastiano Vascon2026-03-02💻 cs

LLM-Enhanced Multimodal Fusion for Cross-Domain Sequential Recommendation

이 논문은 LLM 의 지식을 활용하여 텍스트 정보를 강화하고, CLIP 기반의 멀티모달 융합 및 다중 어텐션 메커니즘을 통해 도메인 간 선호도와 복잡한 사용자 관심을 효과적으로 포착함으로써 기존 방법보다 우수한 성능을 보이는 새로운 크로스 도메인 순차 추천 모델인 LLM-EMF 를 제안합니다.

Wangyu Wu, Zhenhong Chen, Wenqiao Zhang + 5 more2026-03-02💻 cs

Distilling Balanced Knowledge from a Biased Teacher

이 논문은 편향된 교사 모델로부터 균형 잡힌 지식을 추출하기 위해 교차 그룹 손실과 그룹 내 손실을 재구성하고 각각을 보정 및 재가중하는 '장기 꼬리 지식 증류 (LTKD)' 프레임워크를 제안하여, 기존 방법들보다 전반적 및 꼬리 클래스 정확도에서 우수한 성능을 입증합니다.

Seonghak Kim2026-03-02💻 cs

Empowering Small VLMs to Think with Dynamic Memorization and Exploration

이 논문은 SFT 와 RLVR 간의 트레이드오프를 동적으로 관리하고 시각적 감독 메커니즘을 결합한 'DyME'라는 새로운 학습 패러다임을 제안함으로써, 제한된 용량의 소형 시각 - 언어 모델 (SVLM) 에도 안정적이고 효과적인 추론 능력을 부여하는 것을 목표로 합니다.

Jiazhen Liu, Yuchuan Deng, Long Chen2026-03-02💻 cs

SelvaBox: A high-resolution dataset for tropical tree crown detection

이 논문은 열대 우림의 개별 수관 탐지를 위해 3 개 국가의 드론 영상에서 83,000 개 이상의 수관을 수동으로 라벨링한 'SelvaBox'라는 대규모 오픈 액세스 데이터셋을 소개하고, 이를 통해 고해상도 입력의 중요성과 다른 데이터셋에 대한 제로샷 탐지 성능을 입증했습니다.

Hugo Baudchon, Arthur Ouaknine, Martin Weiss + 5 more2026-03-02💻 cs

Concept-based Adversarial Attack: a Probabilistic Perspective

이 논문은 단일 이미지 변형을 넘어 개념의 확률적 분포를 조작하여 원본 개념을 유지하면서도 다양하고 효율적인 적대적 예제를 생성하는 새로운 프레임워크를 제안합니다.

Andi Zhang, Xuan Ding, Steven McDonagh + 1 more2026-03-02🤖 cs.AI

Knowledge-Guided Machine Learning: Illustrating the use of Explainable Boosting Machines to Identify Overshooting Tops in Satellite Imagery

이 논문은 기상학 분야에서 인간의 지식을 반영한 해석 가능한 머신러닝 알고리즘인 설명 가능 부스팅 머신 (EBM) 을 활용하여 위성 영상에서 오버슈팅 탑을 식별하는 방법을 제시하고, 복잡한 모델의 정확도는 다소 낮지만 인간과 기계의 협업을 통해 투명하고 신뢰할 수 있는 예보 모델 개발의 가능성을 보여줍니다.

Nathan Mitchell, Lander Ver Hoef, Imme Ebert-Uphoff + 4 more2026-03-02🤖 cs.LG

← 이전 다음 →

cs.CV