cs.CV 편의 논문 | Gist.Science

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

이 논문은 기존 VLM 기반 안전 장벽이 고정된 정책에만 과적합되는 문제를 해결하기 위해, 다양한 정책 하의 일반화 능력을 평가하는 새로운 벤치마크 'SafeEditBench'를 제안하고, 검증 가능한 보상을 활용한 강화학습 방법 'SafeGuard-VL'을 통해 진화하는 안전 정책에 적응하는 강력한 이미지 가드레일 모델을 개발했습니다.

Caiyong Piao, Zhiyuan Yan, Haoming Xu + 4 more2026-03-03💻 cs

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

이 논문은 대규모 비전 - 언어 모델의 시각 토큰 가지치기에서 주의 (attention) 와 다양성 (diversity) 기반 방법의 한계를 실증적으로 분석하고, 이미지 특성에 맞춰 적응적으로 조정된 하이브리드 가지치기 전략인 AgilePruner 를 제안하여 성능과 환각 (hallucination) 억제를 동시에 개선하는 방법을 제시합니다.

Changwoo Baek, Jouwon Song, Sohyeon Kim + 1 more2026-03-03🤖 cs.LG

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

이 논문은 다기관 데이터를 활용하여 단일 기관 편향을 해소하고, 유방 MRI 종양 분할 및 치료 반응 예측 모델의 일반화 능력과 하위 그룹 간 공정성을 동시에 평가하기 위해 'MAMA-MIA 챌린지'를 설계하고 그 결과를 제시한 연구입니다.

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar + 43 more2026-03-03🤖 cs.AI

Cross-Modal Guidance for Fast Diffusion-Based Computed Tomography

이 논문은 기존 확산 모델을 재학습시키지 않고도 쉽게 구할 수 있는 보조 영상 모달리티 (예: X 선 CT) 를 활용하여 희소 데이터로 인한 CT 재구성 품질을 획기적으로 향상시키는 크로스-모달 가이드 방식을 제안합니다.

Timofey Efimov, Singanallur Venkatakrishnan, Maliha Hossain + 2 more2026-03-03💻 cs

Certifiable Estimation with Factor Graphs

이 논문은 Shor 의 완화와 Burer-Monteiro 분해가 인수 그래프 구조를 보존한다는 통찰을 바탕으로, 기존 로봇 공학 및 컴퓨터 비전 분야에서 널리 사용되는 인수 그래프 라이브러리를 활용해 신뢰할 수 있는 전역 최적 해를 제공하는 인증 가능한 추정 시스템을 기존 국소 최적화 방법과 동일한 수준의 용이성으로 설계 및 배포할 수 있는 통합 프레임워크를 제시합니다.

Zhexin Xu, Nikolas R. Sanderson, Hanna Jiamei Zhang + 1 more2026-03-03💻 cs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

이 논문은 자율주행의 궤적 예측 정확도를 높이고 계산 효율성을 개선하기 위해 주파수 도메인 분석과 선형 시간 상태 공간 모델을 결합한 'FoSS' 프레임워크를 제안하며, Argoverse 벤치마크에서 기존 최첨단 방법보다 높은 정확도와 낮은 연산 비용을 달성함을 입증합니다.

Yizhou Huang, Gengze Jiang, Yihua Cheng + 1 more2026-03-03💻 cs

← 이전 다음 →

cs.CV

Towards Policy-Adaptive Image Guardrail: Benchmark and Method

AgilePruner: An Empirical Study of Attention and Diversity for Adaptive Visual Token Pruning in Large Vision-Language Models

The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

Cross-Modal Guidance for Fast Diffusion-Based Computed Tomography

Certifiable Estimation with Factor Graphs

FoSS: Modeling Long Range Dependencies and Multimodal Uncertainty in Trajectory Prediction via Fourier State Space Integration

Multi-Level Bidirectional Decoder Interaction for Uncertainty-Aware Breast Ultrasound Analysis

When Does RL Help Medical VLMs? Disentangling Vision, SFT, and RL Gains

AG-VAS: Anchor-Guided Zero-Shot Visual Anomaly Segmentation with Large Multimodal Models

Open-Vocabulary vs Supervised Learning Methods for Post-Disaster Visual Scene Understanding

You Only Need One Stage: Novel-View Synthesis From A Single Blind Face Image

Perspective-Equivariant Fine-tuning for Multispectral Demosaicing without Ground Truth

MixerCSeg: An Efficient Mixer Architecture for Crack Segmentation via Decoupled Mamba Attention

TIMI: Training-Free Image-to-3D Multi-Instance Generation with Spatial Fidelity

Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

UniTalking: A Unified Audio-Video Framework for Talking Portrait Generation

SeaVIS: Sound-Enhanced Association for Online Audio-Visual Instance Segmentation

Unifying Language-Action Understanding and Generation for Autonomous Driving

Revisiting Global Token Mixing in Task-Dependent MRI Restoration: Insights from Minimal Gated CNN Baselines

Deepfake Forensics Adapter: A Dual-Stream Network for Generalizable Deepfake Detection