Move What Matters: Parameter-Efficient Domain Adaptation via Optimal Transport Flow for Collaborative Perception

이 논문은 V2X 협업 인식의 도메인 적응 문제를 해결하기 위해 최적 수송 이론을 기반으로 불필요한 샘플을 필터링하고 의미론적 손실을 완화하는 'FlowAdapt'라는 파라미터 효율적 프레임워크를 제안하며, 학습 가능한 파라미터의 1% 만으로 최첨단 성능을 달성함을 보여줍니다.

Zesheng Jia, Jin Wang, Siao Liu, Lingzhi Li, Ziyao Huang, Yunjiang Xu, Jianping Wang2026-03-10💻 cs

SToRM: Supervised Token Reduction for Multi-modal LLMs toward efficient end-to-end autonomous driving

이 논문은 자율주행 환경에서 다중 모달 LLM 의 연산 비용을 최대 30 배까지 줄이면서도 모든 토큰을 사용할 때와 동등한 성능을 유지하기 위해, 토큰 중요도 예측, 감독 학습, 그리고 어노커 - 컨텍스트 병합 모듈을 활용한 'SToRM'이라는 새로운 프레임워크를 제안합니다.

Seo Hyun Kim, Jin Bok Park, Do Yeon Koo, Hogun Park, Il Yong Chun2026-03-10💻 cs

3DMedAgent: Unified Perception-to-Understanding for 3D Medical Analysis

이 논문은 2D 기반의 다중모달 대형 언어 모델을 3D CT 데이터 분석에 적용할 수 있도록 다양한 시각 및 텍스트 도구를 조정하고 장기 구조적 메모리를 통해 점진적 추론을 가능하게 하는 통합 에이전트 '3DMedAgent'를 제안하며, 이를 통해 40 개 이상의 다양한 작업에서 기존 모델들을 능가하는 성능을 입증했습니다.

Ziyue Wang, Linghan Cai, Chang Han Low, Haofeng Liu, Junde Wu, Jingyu Wang, Rui Wang, Lei Song, Jiang Bian, Jingjing Fu, Yueming Jin2026-03-10💻 cs

OVerSeeC: Open-Vocabulary Costmap Generation from Satellite Images and Natural Language

이 논문은 위성 영상과 자연어 명령을 기반으로 사전 정의된 지식 없이도 자율 항해를 위한 전역 비용 지도를 생성하는 제로샷 모듈러 프레임워크인 OVerSeeC 를 제안하며, 이를 통해 다양한 미션 요구사항과 새로운 지형 객체에 유연하게 대응하는 확장 가능한 글로벌 경로 계획이 가능함을 보여줍니다.

Rwik Rana, Jesse Quattrociocchi, Dongmyeong Lee, Christian Ellis, Amanda Adkins, Adam Uccello, Garrett Warnell, Joydeep Biswas2026-03-10💻 cs

Open-Vocabulary Domain Generalization in Urban-Scene Segmentation

이 논문은 자율주행 환경에서 미시적 도메인과 미시적 카테고리 모두에 대한 일반화 문제를 해결하기 위해 새로운 벤치마크를 제안하고, 사전 훈련된 비전 - 언어 모델의 도메인 왜곡을 완화하는 상태 공간 기반 텍스트 - 이미지 상관관계 정제 메커니즘인 S2-Corr을 도입한 오픈-보카불러리 도메인 일반화 (OVDG-SS) 설정을 제시합니다.

Dong Zhao, Qi Zang, Nan Pu, Wenjing Li, Nicu Sebe, Zhun Zhong2026-03-10💻 cs

InfScene-SR: Arbitrary-Size Image Super-Resolution via Iterative Joint-Denoising

본 논문은 고정된 입력 크기 제한과 경계 아티팩트 문제를 해결하기 위해, 가변 크기 이미지 초해상도를 위해 중첩 패치 간 결합 디노이징을 수행하는 'Variance-Corrected Fusion(VCF)'과 메모리 복잡도를 획기적으로 낮추는 'Spatially-Decoupled Variance Correction(SDVC)' 기법을 제안한 InfScene-SR 모델을 소개합니다.

Shoukun Sun, Zhe Wang, Xiang Que, Jiyin Zhang, Xiaogang Ma2026-03-10💻 cs

See It, Say It, Sorted: An Iterative Training-Free Framework for Visually-Grounded Multimodal Reasoning in LVLMs

이 논문은 강화학습 없이 시각적 증거를 기반으로 추론 단계마다 환각을 검증하고 필요한 경우 동적으로 추가 증거를 추출하는 'See It, Say It, Sorted'라는 경량화 플러그인 프레임워크를 제안하여 대형 시각 - 언어 모델의 환각을 줄이고 추론 정확도를 크게 향상시킨다는 내용입니다.

Yongchang Zhang, Oliver Ma, Tianyi Liu, Guangquan Zhou, Yang Chen2026-03-10💻 cs

WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

본 논문은 텍스트 기반 이미지 검색 (T2I) 과 이미지 기반 이미지 검색 (I2I) 의 상호 보완적 강점을 활용하여, '더 넓은 검색 (Wider Search)', '더 깊은 사고 (Deeper Thinking)', '적응형 융합 (Adaptive Fusion)'을 통해 학습 없이도 다양한 쿼리 의도에 맞춰 정확도를 극대화하는 제로샷 합성 이미지 검색 프레임워크인 WISER 를 제안합니다.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang2026-03-10💻 cs

PackUV: Packed Gaussian UV Maps for 4D Volumetric Video

이 논문은 기존 가우시안 스플래팅 방법의 한계를 극복하고 표준 비디오 코덱과 호환되는 고품질 4D 볼륨 비디오 스트리밍을 가능하게 하는 'PackUV'라는 새로운 4D 가우시안 표현법과 이를 위한 최적화 기법, 그리고 대규모 평가 데이터셋을 제안합니다.

Aashish Rai, Angela Xing, Anushka Agarwal, Xiaoyan Cong, Zekun Li, Tao Lu, Aayush Prakash, Srinath Sridhar2026-03-10💻 cs

Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

이 논문은 고해상도 비전 작업에서 기존 소프트맥스 어텐션의 이차적 계산 비용 문제를 해결하기 위해, 토큰 간 다중 홉 상호작용을 누적하는 무한 자기어텐션 (InfSA) 과 선형 시간 복잡도를 갖는 Linear-InfSA 를 제안하여 ImageNet-1K 에서 84.7% 의 정확도를 달성하면서도 4096x4096 해상도까지 메모리 없이 처리할 수 있는 효율적인 비전 트랜스포머 아키텍처를 소개합니다.

Giorgio Roffo, Luke Palmer2026-03-10💻 cs

WildActor: Unconstrained Identity-Preserving Video Generation

이 논문은 대규모 데이터셋 'Actor-18M'과 비대칭 정체성 보존 어텐션 및 시점 적응 몬테카를로 샘플링 전략을 활용한 'WildActor' 프레임워크를 제안하여, 기존 방법들의 한계를 극복하고 다양한 각도와 동작에서도 일관된 신원 정보를 유지하는 고품질 인간 비디오 생성을 실현합니다.

Qin Guo, Tianyu Yang, Xuanhua He, Fei Shen, Yong Zhang, Zhuoliang Kang, Xiaoming Wei, Dan Xu2026-03-10💻 cs