ViRC: Enhancing Visual Interleaved Mathematical CoT with Reason Chunking

이 논문은 Miller 의 법칙과 인간의 문제 해결 패턴에 영감을 받아, 동적 시각 정보 획득과 단계별 추론을 가능하게 하는 'Reason Chunking' 메커니즘을 도입하고 CRUX 데이터셋 및 점진적 학습 전략을 통해 다중 모달 수학 추론 성능을 획기적으로 향상시킨 ViRC 프레임워크를 제안합니다.

Lihong Wang, Liangqi Li, Weiwei Feng + 6 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

본 논문은 방사선 치료 계획에서 장기 의존성을 효과적으로 포착하고 물리적으로 타당한 조도 맵을 생성하기 위해, 두 단계 설계와 물리 기반 손실 함수를 통합한 트랜스포머 기반 프레임워크인 FluenceFormer 를 제안하고, 전립선 IMRT 데이터셋에서 기존 CNN 및 단일 단계 방법보다 우수한 성능을 입증했습니다.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

PhyGDPO: Physics-Aware Groupwise Direct Preference Optimization for Physically Consistent Text-to-Video Generation

이 논문은 대규모 물리 데이터셋 (PhyVidGen-135K) 구축을 위한 PhyAugPipe 파이프라인과 물리 법칙을 준수하는 비디오 생성을 위한 PhyGDPO 프레임워크를 제안하여, 기존 텍스트 - 비디오 생성 모델의 물리 일관성 문제를 해결하고 물리 벤치마크에서 최첨단 성능을 달성함을 보여줍니다.

Yuanhao Cai, Kunpeng Li, Menglin Jia + 11 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

이 논문은 축구 하이라이트를 기반으로 중요 순간을 식별하는 새로운 데이터셋을 구축하여, 현재 멀티모달 기반 모델이 중요한 하위 이벤트를 구분하는 데 우연 수준에 머무르며 단일 모달리티에 과도하게 의존하고 있음을 규명하고, 이를 해결하기 위한 모듈식 아키텍처와 교차 모달 시너지를 극대화하는 훈련 절차의 필요성을 강조합니다.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

MiTA Attention: Efficient Fast-Weight Scaling via a Mixture of Top-k Activations

이 논문은 긴 시퀀스에서의 어텐션 연산 효율성을 높이기 위해 '마이크로 어텐션 (MiTA)'이라는 새로운 메커니즘을 제안하며, 이는 랜드마크 쿼리를 통해 N 폭의 MLP 를 압축하고 각 랜드마크에 대해 최상위 k 개의 활성화된 키-값 쌍을 수집하는 '압축 및 라우팅' 전략을 기반으로 합니다.

Qishuai Wen, Zhiyuan Huang, Xianghan Meng + 2 more2026-03-06💻 cs

DDP-WM: Disentangled Dynamics Prediction for Efficient World Models

이 논문은 기존 밀도 기반 트랜스포머 모델의 계산 과부하 문제를 해결하기 위해 물리적 상호작용과 배경 업데이트를 분리하는 '분리된 역학 예측 (DDP)' 원리를 적용한 효율적인 세계 모델 DDP-WM 을 제안하며, 이를 통해 추론 속도를 약 9 배 향상시키고 계획 성공률을 98% 로 개선함을 보여줍니다.

Shicheng Yin, Kaixuan Yin, Weixing Chen + 3 more2026-03-06💻 cs

Rolling Sink: Bridging Limited-Horizon Training and Open-Ended Testing in Autoregressive Video Diffusion

이 논문은 제한된 길이의 훈련 데이터와 무한한 길이의 테스트 환경 사이의 간극을 해결하기 위해 훈련 없이 적용 가능한 'Rolling Sink'를 제안하여, 5 초 길이의 데이터로 훈련된 자기회귀 비디오 확산 모델을 30 분 이상의 초장편 영상 생성에 성공적으로 확장합니다.

Haodong Li, Shaoteng Liu, Zhe Lin + 1 more2026-03-06💻 cs

CARE: A Molecular-Guided Foundation Model with Adaptive Region Modeling for Whole Slide Image Analysis

이 논문은 자연 이미지 백본의 한계를 극복하고 RNA 및 단백질 프로파일과 같은 분자 정보를 활용하여 적응형 영역을 자동으로 분할하는 새로운 파운데이션 모델 'CARE'를 제안하며, 기존 모델보다 적은 데이터로 다양한 병리학적 태스크에서 우수한 성능을 입증합니다.

Di Zhang, Zhangpeng Gong, Xiaobo Pang + 14 more2026-03-06💻 cs

RobustVisRAG: Causality-Aware Vision-Based Retrieval-Augmented Generation under Visual Degradations

이 논문은 시각적 왜곡으로 인한 성능 저하를 해결하기 위해 인과성 기반의 이중 경로 프레임워크 'RobustVisRAG'와 새로운 벤치마크 'Distortion-VisRAG'를 제안하여, 의미와 왜곡 요소를 분리함으로써 시각적 열악한 환경에서도 견고한 검색 및 생성 성능을 달성함을 보여줍니다.

I-Hsiang Chen, Yu-Wei Liu, Tse-Yu Wu + 3 more2026-03-06💻 cs