Counterfactual Explanations on Robust Perceptual Geodesics

이 논문은 Wachter 등 의 기존 방법론이 가진 거리 측정의 모호성과 오프-매니폴드 문제를 해결하기 위해, 견고한 비전 특징에서 유도된 지각적 리만 계량 하의 측지선을 따라 반사실 설명을 생성하는 '지각적 반사실 측지선 (PCG)'을 제안하고, 이를 통해 인간 지각과 정렬된 매끄럽고 의미 있는 전환을 가능하게 함을 보여줍니다.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

이 논문은 복잡한 시각적 노이즈와 다양한 정보 소스가 필요한 현실 세계의 문제를 해결하기 위해, 다중 턴·다중 엔티티·다중 스케일의 검색을 수행하고 강화학습을 통해 심층 연구 능력을 내재화한 새로운 멀티모달 딥러닝 모델 'Vision-DeepResearch'를 제안합니다.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

이 논문은 자연물 이미지로 훈련된 3D 생성 모델들이 의료 단층 촬영 데이터에서는 심층적 모호성으로 인해 부피 재구성에 실패하지만, SAM3D 가 다른 모델들보다 해부학적 위상 구조를 더 잘 포착한다는 것을 다양한 벤치마크를 통해 규명하고, 의료용 3D 재구성을 위해서는 도메인 특화 적응과 해부학적 제약이 필수적임을 강조합니다.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

이 논문은 실시간 스트리밍 환경에서 발생하는 지연과 시간적 불안정성을 해결하기 위해, 다중 교사 학습, 적응형 CFG 보정, 하이브리드 롱 테일 포싱, VAE 디코더 정제라는 네 가지 핵심 기법을 도입하여 저지연·고품질·동기화된 멀티모달 비디오 생성을 가능하게 하는 'EchoTorrent' 모델을 제안합니다.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

이 논문은 고정된 해상도 처리의 한계를 극복하고 조직의 위상학적 구조를 효율적으로 분석하기 위해 희소 위상 패킹 어텐션 메커니즘과 전문가 검증 데이터셋을 도입한 간세포암 진단용 멀티모달 대규모 언어 모델 'Hepato-LLaVA'를 제안합니다.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

이 논문은 의료 영상 분할 모델의 블랙박스 문제를 해결하기 위해 인과 추론 프레임워크를 활용하여 입력 영역과 네트워크 구성 요소가 분할 결과에 미치는 영향을 정량화하는 새로운 설명 기법을 제안하고, 기존 방법보다 더 충실한 설명을 제공하며 다양한 모델의 인지 전략 차이를 규명함을 보여줍니다.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

이 논문은 대규모 이미지 데이터셋의 저장 공간을 줄이면서도 모델 학습에 필수적인 정보를 보존하기 위해, 이미지 내 색상 중복성을 제거하고 모델이 인식하는 중요한 색상을 선택적으로 유지하는 '데이터셋 색상 양자화 (DCQ)'라는 새로운 프레임워크를 제안하고 다양한 벤치마크에서 그 효과를 입증합니다.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

이 논문은 안전하지 않은 텍스트 프롬프트의 악의적 의도를 참조 이미지의 시각적 지시문으로 위장하여 이미지 - 비디오 생성 모델을 우회하는 '시각적 지시 주입 (VII)'이라는 새로운 훈련 없는 탈옥 프레임워크를 제안하고, 네 가지 상용 모델에서 83.5% 의 높은 공격 성공률을 입증합니다.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs