cs.CV 편의 논문 | Gist.Science

SGMA: Semantic-Guided Modality-Aware Segmentation for Remote Sensing with Incomplete Multimodal Data

이 논문은 원격 감지 분야에서 센서 고장 등으로 인한 불완전한 다중 모달 데이터를 처리할 때 발생하는 모달 불균형, 클래스 내 변이, 모달 간 이질성 문제를 해결하기 위해, 의미 기반 융합과 모달 인식 샘플링 모듈을 통해 모달별 강건성을 추정하고 적응적으로 학습하는 'SGMA' 프레임워크를 제안합니다.

Lekang Wen, Liang Liao, Jing Xiao + 1 more2026-03-04💻 cs

Beyond Anatomy: Explainable ASD Classification from rs-fMRI via Functional Parcellation and Graph Attention Networks

이 논문은 ABIDE I 데이터셋을 활용하여 해부학적 영역 분할보다 기능적 영역 분할이 더 효과적임을 입증하고, 그래프 어텐션 네트워크 앙상블을 통해 자폐 스펙트럼 장애 (ASD) 분류 정확도를 95% 까지 끌어올리면서 모델의 해석 가능성을 확보한 새로운 접근법을 제시합니다.

Syeda Hareem Madani, Noureen Bibi, Adam Rafiq Jeraj + 3 more2026-03-04💻 cs

NeighborMAE: Exploiting Spatial Dependencies between Neighboring Earth Observation Images in Masked Autoencoders Pretraining

이 논문은 지구 관측 이미지의 연속성을 활용하여 이웃 이미지 간의 공간적 의존성을 학습하고, 동적 마스킹 비율 및 손실 가중치 전략을 통해 재구성 난이도를 최적화하는 자기지도 학습 프레임워크인 NeighborMAE 를 제안하여 기존 기법보다 우수한 성능을 입증합니다.

Liang Zeng, Valerio Marsocci, Wufan Zhao + 2 more2026-03-04💻 cs

EIMC: Efficient Instance-aware Multi-modal Collaborative Perception

이 논문은 자율주행의 안전성을 높이기 위해 경량 협업 보크셀 주입과 인스턴스 중심의 메시지 전달 방식을 도입하여, 기존 다중 모달 협업 감지 방식 대비 대역폭을 87.98% 절감하면서도 OPV2V 및 DAIR-V2X 데이터셋에서 73.01% AP@0.5 의 높은 성능을 달성한 효율적인 인스턴스 인식 다중 모달 협업 감지 프레임워크인 EIMC 를 제안합니다.

Kang Yang, Peng Wang, Lantao Li + 4 more2026-03-04💻 cs

Functional Properties of the Focal-Entropy

이 논문은 불균형 분류 문제에서 널리 사용되는 포커스 손실 (focal-loss) 의 정보이론적 분석을 통해 포커스 엔트로피의 수렴성, 볼록성, 연속성 등을 규명하고, 확률 분포에 미치는 영향과 최적 해의 구조를 이론적으로 증명하여 불균형 학습에서의 포커스 손실의 작동 원리와 트레이드오프를 명확히 합니다.

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

ForestPersons: A Large-Scale Dataset for Under-Canopy Missing Person Detection

이 논문은 UAV 의 공중 촬영으로는 탐지가 어려운 숲속 실종자 발견을 위해, 지상 및 저고도 관점에서 수집된 대규모 데이터셋 'ForestPersons'를 제안하고 기존 검출 모델의 한계를 규명하여 실제 수색 구조 (SAR) 임무에 기여하는 새로운 벤치마크를 제공합니다.

Deokyun Kim, Jeongjun Lee, Jungwon Choi + 6 more2026-03-04💻 cs

On Discriminative vs. Generative classifiers: Rethinking MLLMs for Action Understanding

이 논문은 폐쇄형 행동 이해를 위해 생성형 분류기의 비효율성과 모호성을 해결하고 정확도와 효율성을 동시에 향상시키기 위해 미세조정 단계에서만 작동하는 '생성 보조 판별형 (GAD)' 분류기를 제안하고, 다양한 벤치마크에서 기존 생성형 방법보다 우수한 성능을 입증합니다.

Zhanzhong Pang, Dibyadip Chatterjee, Fadime Sener + 1 more2026-03-04💻 cs

SemGS: Feed-Forward Semantic 3D Gaussian Splatting from Sparse Views for Generalizable Scene Understanding

이 논문은 희소 뷰 입력으로부터 일반화된 3D 장면을 실시간으로 재구성하고 의미론적 이해를 가능하게 하는 새로운 피드-포워드 프레임워크 'SemGS'를 제안하며, 이를 통해 기존 방법들의 한계를 극복하고 다양한 시나리오에서 뛰어난 성능을 입증합니다.

Sheng Ye, Zhen-Hui Dong, Ruoyu Fan + 2 more2026-03-04💻 cs

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

이 논문은 외과 의사의 지시를 기반으로 제로샷 방식으로 그리핑 및 전달 궤적을 생성하고, 실시간 장애물 회피 및 자기 충돌 방지를 위한 통합 최적화 프레임워크를 적용하여 동적 환경에서 충돌 없이 수술 기구를 전달하는 충돌 방지형 듀얼 암 수술 보조 로봇을 제안합니다.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

이 논문은 비전 파운데이션 모델의 일반화 능력을 유지하면서 도메인 외 데이터에 대한 강건성을 향상시키기 위해 표현 학습과 작업 학습을 분리하고 쿼리 기반 소프트 지식 증류 메커니즘을 도입한 '일반화 가능한 지식 증류 (GKD)' 프레임워크를 제안합니다.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

이 논문은 시각적 대비 쌍을 활용하여 VLM 의 환각을 완화하고 자기 개선 학습을 통해 시각 추론 능력을 향상시키는 새로운 프레임워크인 VC-STaR 과 이를 기반으로 구축된 VisCoR-55K 데이터셋을 제안합니다.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

CAPT: Confusion-Aware Prompt Tuning for Reducing Vision-Language Misalignment

이 논문은 시각-언어 모델의 체계적인 오분류 패턴을 분석하여 '혼동 은행'을 구축하고, 이를 기반으로 의미 및 샘플 수준의 혼동 정보를 통합적으로 학습하는 CAPT(혼동 인식 프롬프트 튜닝) 프레임워크를 제안함으로써 모델의 세밀한 구별 능력과 일반화 성능을 획기적으로 향상시켰습니다.

Maoyuan Shao, Yutong Gao, Xinyang Huang + 3 more2026-03-04🤖 cs.AI

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

이 논문은 안개, 비, 눈 등 복합적인 악기상 조건에서도 단일 또는 복합적인 기상 저하를 동시에 처리하고 적외선 - 가시광선 이미지 융합을 수행하는 최초의 엔드 - 투 - 엔드 프레임워크인 CAWM-Mamba 를 제안하여 자율주행 및 UAV 모니터링과 같은 실제 응용 분야에서 기존 방법보다 뛰어난 성능을 입증했습니다.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

이 논문은 추천 시스템의 긴 시퀀스 모델링 문제를 해결하기 위해 저랭크 행렬 구조를 활용한 SVD-Attention 을 기반으로 한 SOLAR 프레임워크를 제안하며, 이를 통해 계산 복잡도를 획기적으로 낮추면서도 Kuaishou 의 온라인 환경에서 비디오 조회수 등 주요 비즈니스 지표를 유의미하게 개선했음을 보여줍니다.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration

이 논문은 학습 가능한 토큰 사전과 이를 활용한 교차 어텐션 메커니즘을 도입하여 선형 복잡도에서 전역 의존성을 모델링함으로써 이미지 복원 성능을 극대화하는 새로운 트랜스포머 아키텍처인 ATD 를 제안합니다.

Leheng Zhang, Wei Long, Yawei Li + 3 more2026-03-04💻 cs

Neural Electromagnetic Fields for High-Resolution Material Parameter Reconstruction

이 논문은 이미지와 RF 신호를 활용하여 기하학적 구조와 환경장을 먼저 분리한 후 물리 법칙 기반의 디코더를 통해 비접촉 방식으로 고해상도 재료 매개변수를 복원함으로써 기능적이고 시뮬레이션 가능한 디지털 트윈 구축을 가능하게 하는 'NEMF' 프레임워크를 제안합니다.

Zhe Chen, Peilin Zheng, Wenshuo Chen + 3 more2026-03-04⚡ eess

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

이 논문은 제한된 데이터로 인한 과적합 문제를 해결하기 위해 다양한 이미지 증강 기법을 경량 비전 트랜스포머 모델에 적용하여 방글라데시 손글씨 문자 분류의 일반화 성능을 평가한 결과, 무작위 아핀 변환과 컬러 점프의 조합이 가장 높은 정확도를 달성했음을 보여줍니다.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

← 이전 다음 →

cs.CV