TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

이 논문은 고정된 해시 기반 프레임워크의 한계를 극복하고, 의미 인식 프로토타입 업데이트와 안정적인 테스트 시간 인코더 업데이트를 통해 온더플라이 카테고리 발견 (OCD) 작업에서 새로운 클래스를 효과적으로 학습하고 분류 성능을 향상시키는 'TALON'이라는 적응 학습 프레임워크를 제안합니다.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

이 논문은 기존 벤치마크의 한계를 극복하고 58 개 세부 범주와 계층적 분류 체계를 통해 주체 기반 텍스트 - 이미지 생성 모델의 성능을 정밀하게 평가하고 개선 방향을 제시하는 새로운 벤치마크인 DSH-Bench 를 제안합니다.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

이 논문은 자율주행의 안전성과 성능을 향상시키기 위해 토큰 기반이 아닌 비전 (BEV) 장면 정보를 기반으로 전문가를 선택하는 'SAMoE-VLA'라는 새로운 비전 - 언어 - 행동 모델을 제안하고, 이를 통해 기존 방법론보다 우수한 성능을 입증했습니다.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

이 논문은 사전 학습된 모델의 한계를 극복하고 훈련 없이 3D 토폴로지와 다중 뷰 의미 인코딩을 활용하여 복잡한 3D 환경에서 자연어 기반 객체 위치 파악 (3D Visual Grounding) 의 새로운 최첨단 성능을 달성한 'UniGround'를 제안합니다.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

이 논문은 저조도, 노이즈, 모션 블러가 복합적으로 발생한 3D 장면을 저해상도 2D 디블러러와 노이즈 인식 3DGS 재구성을 번갈아 수행하는 'FLED-GS' 프레임워크를 제안하여, 기존 방법보다 21 배 빠른 학습과 11 배 빠른 렌더링으로 고품질 복원을 달성함을 보여줍니다.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

이 논문은 가상 의류 착용 (VTON) 과 사이즈 추정과 같은 패션 특화 연구를 위해, 실제 착용 상태와 평면 카탈로그 이미지를 쌍으로 포함하는 3,273 개의 시퀀스와 7,250 만 프레임 규모의 대규모 다중 뷰 비디오 데이터셋인 'MV-Fashion'을 제안합니다.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

이 논문은 빠른 운동, 저조도, 급격한 조명 변화와 같은 열악한 환경에서 기존 시각 SLAM 의 한계를 극복하고, 이벤트 카메라의 특성을 활용한 에지 인식 프론트엔드와 경량 깊이 모듈을 통합한 'Edged USLAM'을 제안하여 다양한 비행 시나리오에서 뛰어난 안정성과 국소화 정확도를 입증합니다.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

이 논문은 전자기 신호와 텍스트 쌍으로 구성된 대규모 데이터셋 'EM-100k'와 포괄적인 벤치마크 'EM-Bench'를 구축하고, 저신호대잡음비 (SNR) 환경에서도 강력한 성능을 발휘하는 새로운 멀티모달 LLM 프레임워크 'MERLIN'을 제안하여 전자기 분야에서의 멀티모달 모델 발전 기반을 마련했습니다.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

이 논문은 LiDAR 와 카메라의 비동기적 데이터 샘플링 문제를 해결하기 위해, 동기화 및 비동기 시점에서 다중 모달 관측을 통합하여 3D 다중 객체 추적 성능을 혁신적으로 향상시킨 'Fusion-Poly'라는 새로운 공간 - 시간 융합 프레임워크를 제안합니다.

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

이 논문은 불균형한 장꼬리 분포를 가진 멀티모달 데이터의 대비 학습 성능을 향상시키기 위해, 샘플의 지역 분포에 기반하여 온도와 마진을 동적으로 조정하는 'MM-TS' 방법을 제안하고 여러 데이터셋에서 새로운 최첨단 결과를 달성했음을 보여줍니다.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

이 논문은 이질적인 열화상 및 가시광 센서 데이터 간의 정합 불일치 문제를 해결하기 위해 정합 인식 유도 이미지 융합 (RGIF) 과 신뢰도 게이트 멀티모달 어텐션 융합 (RGMAF) 전략을 제안하고, MMFW-UAV 데이터셋 실험을 통해 UAV 탐지 성능을 크게 향상시켰음을 입증합니다.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

이 논문은 고정된 확산 백본에 경량 하이퍼네트워크를 통해 참조 비디오의 의미론적 특성을 적응형 LoRA 가중치로 변환하여, 150MB 미만의 경량 모델로 다양한 조건에서 의미 정렬이 된 비디오를 생성하고 제로샷 일반화를 가능하게 하는 'Video2LoRA' 프레임워크를 제안합니다.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

이 논문은 기존 CLIP 기반 비디오 - 텍스트 검색의 오디오 무시 문제를 해결하기 위해, 음성 내용을 효과적으로 표현하는 전용 음성 분기와 초기 시 - 청각 정렬을 위한 soft-ALBEF 를 도입하여 AVIGATE 를 포함한 최첨단 방법들보다 다섯 가지 벤치마크에서 우수한 성능을 보이는 SAVE(Speech-Aware Video rEpresentation learning) 를 제안합니다.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs