Enhancing CLIP Robustness via Cross-Modality Alignment

이 논문은 적대적 공격 하에서 CLIP 의 성능 저하를 유발하는 텍스트와 이미지 특징 간의 불일치 문제를 해결하기 위해, 최적 수송 기반의 학습 없는 프레임워크인 COLA 를 제안하여 전역적 정렬과 국소적 구조 일관성을 복원함으로써 다양한 벤치마크에서 적대적 공격에 대한 강인성을 크게 향상시킨다는 내용을 담고 있습니다.

Xingyu Zhu, Beier Zhu, Shuo Wang + 2 more2026-03-02💻 cs

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

이 논문은 사전 학습된 시각 표현의 취약성을 해결하기 위해 작업과 관련된 시각적 단서에만 주의를 기울이고 방해 요소를 무시하도록 학습되는 경량화된 '주의 기반 특징 집계 (AFA)' 메커니즘을 제안하여, 데이터 증강이나 추가 미세 조정 없이도 시각적 교란이 있는 환경에서 강인한 시각 - 운동 정책을 가능하게 함을 보여줍니다.

Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier + 4 more2026-03-02💻 cs

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

본 연구는 제한된 뇌 MRI 데이터를 활용한 뇌종양 분류 실험을 통해, 의료 도메인 특화 데이터로 사전 학습된 RadImageNet DenseNet121 보다는 대규모 일반 도메인 데이터로 학습된 최신 범용 CNN 인 ConvNeXt-Tiny 가 더 높은 정확도 (93%) 를 보여 의료 영상 분석에서 일반 도메인 사전 학습 모델의 전이 학습 효과가 더 우수할 수 있음을 입증했습니다.

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation

이 논문은 생성된 비디오의 시각적 품질, 동적 품질, 텍스트 - 비디오 정합성이라는 세 가지 핵심 차원을 체계적으로 정의하고 통합적으로 평가하기 위해 약 10,000 개의 비디오 샘플과 세부적 귀속 설명이 포함된 Q-Save 데이터셋과 이를 기반으로 점수 예측과 해석 가능한 설명 생성을 동시에 수행하는 통합 모델을 제안합니다.

Xiele Wu, Zicheng Zhang, Mingtao Chen + 7 more2026-03-02💻 cs

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

이 논문은 방사선 피폭 제한으로 인한 다중 모달리티 CT 데이터의 결측 문제를 해결하기 위해, 시간-감쇠 곡선 상의 결측 샘플점으로 재정의하고 해부학적 정적 성분과 관류 동적 성분을 분리하는 물리 인식 프레임워크인 TARDis 를 제안하여 불완전한 모달리티 환경에서도 우수한 종양 분할 및 분류 성능을 달성함을 보여줍니다.

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

이 논문은 자율주행의 실시간성, 안전성, 해석 가능성을 동시에 확보하기 위해 텍스트 추론을 잠재 공간으로 전환하고 계층적 병렬 경로를 생성하는 통합 비전 - 언어 - 행동 프레임워크인 ColaVLA 를 제안하며, nuScenes 벤치마크에서 기존 최첨단 성능을 달성했다고 요약할 수 있습니다.

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

Inference-time Physics Alignment of Video Generative Models with Latent World Models

이 논문은 잠재 세계 모델 (VJEPA-2) 을 보상 신호로 활용하여 추론 시 여러 생성 경로를 탐색하고 조정하는 'WMReward'를 제안함으로써, 기존 비디오 생성 모델의 물리 법칙 위반 문제를 해결하고 ICCV 2025 Perception Test PhysicsIQ 챌린지에서 1 위를 차지한 성과를 거두었음을 보여줍니다.

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich + 7 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

이 논문은 채널 순서에 의존하지 않고 데이터로부터 채널 간 구조를 추론하여 재학습 없이도 구조적 변화와 미시적 채널에 대한 일반화 성능을 보장하는 다변량 시계열 예측 프레임워크인 CPiRi 를 제안하고, 이를 통해 기존 방법론의 한계를 극복하고 최첨단 성능을 달성함을 보여줍니다.

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs

Scale Equivariance Regularization and Feature Lifting in High Dynamic Range Modulo Imaging

이 논문은 자연 이미지 에지와 인위적인 감싸기 불연속성을 구분하여 고동적 범위 (HDR) 모듈로 이미징의 재구성 정확도를 획기적으로 개선하기 위해, 노출 변화에 대한 일관성을 강제하는 스케일 공변성 정규화와 원시 모듈로 이미지, 감싸기 유한 차분, 폐형식 초기화를 결합한 특징 리프팅 입력 설계를 도입한 학습 기반 HDR 복원 프레임워크를 제안합니다.

Brayan Monroy, Jorge Bacca2026-03-02⚡ eess