Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

이 논문은 멀티모달 KV 캐시의 주파수 영역 에너지 분포와 이상치 (Outlier) KV 를 분석하여, 기존 방법의 한계를 극복하고 FlashAttention 과 호환되면서도 메모리 사용량을 80% 줄이고 디코딩 속도를 1.69 배 향상시키는 'FlashCache'라는 새로운 압축 프레임워크를 제안합니다.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

이 논문은 긴 시간 간격의 행동 인식을 위해 상태 공간 모델의 장점을 활용하면서 시간적 맥락 소실과 전역 시각적 맥락 모델링 문제를 해결하는 새로운 원스텝 TAD 모델인 MambaTAD 를 제안하고, 대각선-마스크 양방향 상태 공간 모듈과 전역 특징 융합 헤드를 통해 다양한 벤치마크에서 우수한 성능을 입증했습니다.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

Observer-Actor: Active Vision Imitation Learning with Sparse-View Gaussian Splatting

이 논문은 3D 가우스 스플래팅을 활용해 한 팔이 최적의 시점을 찾아 3D 모델을 구축하고 다른 팔이 이를 기반으로 행동을 수행하는 'ObAct'라는 새로운 능동적 비전 모방 학습 프레임워크를 제안하며, 이를 통해 가려짐이 없는 학습 분포에 가까운 관측을 확보하여 기존 정적 카메라 설정보다 훨씬 강력한 양손 로봇 정책을 구현함을 보여줍니다.

Yilong Wang, Cheng Qian, Ruomeng Fan + 1 more2026-03-06💻 cs

STAvatar: Soft Binding and Temporal Density Control for Monocular 3D Head Avatars Reconstruction

이 논문은 3D 가우스 스플래팅 기반의 모노큘러 3D 헤드 아바타 재구성에서 기존 방법의 한계를 극복하기 위해 UV 적응형 소프트 바인딩 프레임워크와 시간적 밀도 제어 전략을 도입하여, 특히 자주 가려지는 영역과 미세한 디테일을 포함한 고품질 재구성을 가능하게 하는 STAvatar 를 제안합니다.

Jiankuo Zhao, Xiangyu Zhu, Zidu Wang + 1 more2026-03-06💻 cs

RadarVLM: A Vision-Language Model Approach for Radar Scene Understanding

이 논문은 다양한 시나리오에서 수집된 80 만 개 이상의 레이더 - 캡션 쌍을 활용하여 구조화된 공간 언어 감독을 통해 레이더 장면 이해를 위한 통합 표현을 학습하는 'RadarVLM' 프레임워크를 제안하고, 이를 통해 기존 CLIP 대비 50% 향상된 F1 점수와 21% 향상된 AP 를 달성하여 언어 기반 공간 추론의 유효성을 입증했습니다.

Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

이 논문은 확산 모델의 적대적 유도 과정에서 발생하는 분포 왜곡을 경로 공간 KL 발산으로 정량화하고, 생성 모델의 점수 기하학에 수직인 접선 공간으로 적대적 그래디언트를 투영하여 분포를 보존하면서도 분류 성공률을 유지하는 'DPAC'라는 새로운 제어 기법을 제안하고 이론적·실험적으로 검증합니다.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Fairness-Aware Fine-Tuning of Vision-Language Models for Medical Glaucoma Diagnosis

이 논문은 의료용 비전 - 언어 모델의 인종별 진단 정확도 편차를 줄이기 위해, 최대 정확도 격차 손실 함수를 도입한 공정성 인식 LoRA 기법 (FR-LoRA, GR-LoRA, Hybrid-LoRA) 을 제안하고, 1 만 장의 녹내장 안저 이미지 실험을 통해 GR-LoRA 가 전체 정확도를 유지하면서 진단 편차를 69% 감소시켰음을 입증했습니다.

Zijian Gu, Yuxi Liu, Zhenhao Zhang + 1 more2026-03-06💻 cs

UniComp: Rethinking Video Compression Through Informational Uniqueness

이 논문은 정보 이론적 관점에서 조건부 엔트로피를 최소화하는 '정보의 고유성 (Information Uniqueness)' 개념을 도입하여, 프레임 그룹 융합, 토큰 할당, 공간 동적 압축 모듈을 통해 제한된 계산 예산 하에서도 기존 방법보다 우수한 시각적 토큰 보존 성능을 달성하는 새로운 비디오 압축 프레임워크 'UniComp'를 제안합니다.

Chao Yuan, Shimin Chen, Minliang Lin + 3 more2026-03-06💻 cs

NeuralRemaster: Phase-Preserving Diffusion for Structure-Aligned Generation

이 논문은 구조적 일관성이 필요한 작업에 적합하도록 입력 위상 정보를 보존하고 크기만 무작위화하는 위상 보존 확산 (Phase-Preserving Diffusion, ϕ-PD) 을 제안하여, 기존 확산 모델의 아키텍처 변경 없이도 구조 정렬 생성 및 시뮬레이션에서 현실로의 전이 성능을 향상시킵니다.

Yu Zeng, Charles Ochoa, Mingyuan Zhou + 3 more2026-03-06💻 cs

Revolutionizing Mixed Precision Quantization: Towards Training-free Automatic Proxy Discovery via Large Language Models

이 논문은 인간 전문가의 개입이나 추가 학습 없이 대규모 언어 모델 (LLM) 과 진화적 탐색 전략을 활용하여 혼합 정밀도 양자화 (MPQ) 를 위한 최적의 자동 프록시를 발견하는 새로운 프레임워크인 TAP 를 제안하고, 이를 통해 기존 방법들의 한계를 극복하고 최첨단 성능을 달성함을 보여줍니다.

Haidong Kang, Jun Du, Lihong Lin2026-03-06💻 cs

ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

이 논문은 Miller 의 법칙과 인간의 문제 해결 패턴에 영감을 받아, 동적 시각 정보 획득과 단계별 추론을 가능하게 하는 'Reason Chunking' 메커니즘을 도입하고 CRUX 데이터셋 및 점진적 학습 전략을 통해 다중 모달 수학 추론 성능을 획기적으로 향상시킨 ViRC 프레임워크를 제안합니다.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

본 논문은 방사선 치료 계획에서 장기 의존성을 효과적으로 포착하고 물리적으로 타당한 조도 맵을 생성하기 위해, 두 단계 설계와 물리 기반 손실 함수를 통합한 트랜스포머 기반 프레임워크인 FluenceFormer 를 제안하고, 전립선 IMRT 데이터셋에서 기존 CNN 및 단일 단계 방법보다 우수한 성능을 입증했습니다.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

이 논문은 대규모 물리 데이터셋 (PhyVidGen-135K) 구축을 위한 PhyAugPipe 파이프라인과 물리 법칙을 준수하는 비디오 생성을 위한 PhyGDPO 프레임워크를 제안하여, 기존 텍스트 - 비디오 생성 모델의 물리 일관성 문제를 해결하고 물리 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

이 논문은 축구 하이라이트를 기반으로 중요 순간을 식별하는 새로운 데이터셋을 구축하여, 현재 멀티모달 기반 모델이 중요한 하위 이벤트를 구분하는 데 우연 수준에 머무르며 단일 모달리티에 과도하게 의존하고 있음을 규명하고, 이를 해결하기 위한 모듈식 아키텍처와 교차 모달 시너지를 극대화하는 훈련 절차의 필요성을 강조합니다.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs