cs.CV 편의 논문 | Gist.Science

MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection

이 논문은 단일 이미지에 국한된 기존 한계를 극복하기 위해 다중 이미지 샘플로 구성된 새로운 벤치마크 MMSD3.0 과 교차 이미지 추론 모델 (CIRM) 을 제안하여, 실제 세계의 다중 이미지 맥락에서 발생하는 멀티모달 풍자 감지 성능을 획기적으로 향상시켰습니다.

Haochen Zhao, Yuyao Kong, Yongxiu Xu + 4 more2026-03-02💻 cs

Enhancing CLIP Robustness via Cross-Modality Alignment

이 논문은 적대적 공격 하에서 CLIP 의 성능 저하를 유발하는 텍스트와 이미지 특징 간의 불일치 문제를 해결하기 위해, 최적 수송 기반의 학습 없는 프레임워크인 COLA 를 제안하여 전역적 정렬과 국소적 구조 일관성을 복원함으로써 다양한 벤치마크에서 적대적 공격에 대한 강인성을 크게 향상시킨다는 내용을 담고 있습니다.

Xingyu Zhu, Beier Zhu, Shuo Wang + 2 more2026-03-02💻 cs

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

이 논문은 사전 학습된 시각 표현의 취약성을 해결하기 위해 작업과 관련된 시각적 단서에만 주의를 기울이고 방해 요소를 무시하도록 학습되는 경량화된 '주의 기반 특징 집계 (AFA)' 메커니즘을 제안하여, 데이터 증강이나 추가 미세 조정 없이도 시각적 교란이 있는 환경에서 강인한 시각 - 운동 정책을 가능하게 함을 보여줍니다.

Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier + 4 more2026-03-02💻 cs

← 이전 다음 →

cs.CV

MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection

Enhancing CLIP Robustness via Cross-Modality Alignment

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

Score-Regularized Joint Sampling with Importance Weights for Flow Matching

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

Q-Save: Towards Scoring and Attribution for Generated Video Evaluation

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

Thinking with Drafts: Speculative Temporal Reasoning for Efficient Long Video Understanding

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

Self-Supervised AI-Generated Image Detection: A Camera Metadata Perspective

FRIEDA: Benchmarking Multi-Step Cartographic Reasoning in Vision-Language Models

Sharp Monocular View Synthesis in Less Than a Second

Geometric-Photometric Event-based 3D Gaussian Ray Tracing

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

Inference-time Physics Alignment of Video Generative Models with Latent World Models

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

Scale Equivariance Regularization and Feature Lifting in High Dynamic Range Modulo Imaging

Imagine a City: CityGenAgent for Procedural 3D City Generation

Erase at the Core: Representation Unlearning for Machine Unlearning

PixelRush: Ultra-Fast, Training-Free High-Resolution Image Generation via One-step Diffusion