cs.CV 편의 논문 | Gist.Science

Counterfactual Explanations on Robust Perceptual Geodesics

이 논문은 Wachter 등 의 기존 방법론이 가진 거리 측정의 모호성과 오프-매니폴드 문제를 해결하기 위해, 견고한 비전 특징에서 유도된 지각적 리만 계량 하의 측지선을 따라 반사실 설명을 생성하는 '지각적 반사실 측지선 (PCG)'을 제안하고, 이를 통해 인간 지각과 정렬된 매끄럽고 의미 있는 전환을 가능하게 함을 보여줍니다.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

이 논문은 복잡한 시각적 노이즈와 다양한 정보 소스가 필요한 현실 세계의 문제를 해결하기 위해, 다중 턴·다중 엔티티·다중 스케일의 검색을 수행하고 강화학습을 통해 심층 연구 능력을 내재화한 새로운 멀티모달 딥러닝 모델 'Vision-DeepResearch'를 제안합니다.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

이 논문은 관측치의 이상 여부가 내재적 속성이 아닌 맥락에 의존한다는 가정을 재조명하여, 시각적 맥락과 객체의 호환성을 학습하는 새로운 프레임워크와 CAAD-3K 라는 벤치마크를 제안하고 기존 방법론보다 우수한 성능을 입증합니다.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

이 논문은 이론적 마음 (ToM) 을 기반으로 한 계층적 벤치마크 'HitEmotion' 과 ToM 기반 추론 체인 및 TMPO 강화 학습 방법을 제안하여, 멀티모달 대규모 언어 모델의 감정 이해 능력을 진단하고 향상시키는 프레임워크를 제시합니다.

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

이 논문은 확산 모델의 포스트 트레이닝 양자화 (PTQ) 성능을 향상시키기 위해, 각 타임스텝의 특성에 맞춰 칼리브레이션 샘플에 가중치를 학습하여 그래디언트 정렬을 수행하는 새로운 방법을 제안합니다.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

이 논문은 비디오 토큰의 실제 기여도를 기반으로 강화 학습을 통해 최적의 토큰 조합을 능동적으로 탐색하는 'CaCoVID' 알고리즘을 제안하여 비디오 이해 모델의 추론 효율성을 크게 향상시킵니다.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

이 논문은 물리적 속성 정보가 없는 미지의 환경에서 다중 시점 영상 관측만으로 천의 역학을 학습할 수 있도록, 비디오-기하학적 정합과 역학 모델 훈련을 결합한 비지도 학습 프레임워크인 CloDS 를 제안합니다.

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

이 논문은 기존 벤치마크의 한계를 극복하고 현실적인 조건을 반영한 '비전-딥리서치 벤치마크 (VDR-Bench)'를 구축하고, 이를 통해 현재 멀티모달 모델의 시각적 검색 능력을 향상시키기 위한 다중 라운드 크롭 검색 워크플로우를 제안합니다.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Investigating Disability Representations in Text-to-Image Models

본 논문은 Stable Diffusion XL 및 DALL-E 3 를 분석하여 텍스트 - 이미지 생성 모델이 장애인을 어떻게 표현하는지, 그리고 완화 전략이 이러한 표현에 미치는 영향을 감정 분석과 인간 평가를 통해 조사하여 지속적이고 포용적인 장애 묘사를 위한 개선의 필요성을 강조합니다.

Yang Tian, Yu Fan, Liudmila Zavolokina + 1 more2026-03-03💬 cs.CL

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

이 논문은 2D 이미지 모델의 계산 효율성을 유지하면서 가변 길이의 비디오를 프레임 단위로 편집할 수 있도록 잔차 흐름을 학습하는 'RFDM'을 제안하고, 이를 통해 기존 방법들보다 효율적이면서도 성능이 우수한 비디오 편집 솔루션을 제시합니다.

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

이 논문은 자연물 이미지로 훈련된 3D 생성 모델들이 의료 단층 촬영 데이터에서는 심층적 모호성으로 인해 부피 재구성에 실패하지만, SAM3D 가 다른 모델들보다 해부학적 위상 구조를 더 잘 포착한다는 것을 다양한 벤치마크를 통해 규명하고, 의료용 3D 재구성을 위해서는 도메인 특화 적응과 해부학적 제약이 필수적임을 강조합니다.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

이 논문은 실시간 스트리밍 환경에서 발생하는 지연과 시간적 불안정성을 해결하기 위해, 다중 교사 학습, 적응형 CFG 보정, 하이브리드 롱 테일 포싱, VAE 디코더 정제라는 네 가지 핵심 기법을 도입하여 저지연·고품질·동기화된 멀티모달 비디오 생성을 가능하게 하는 'EchoTorrent' 모델을 제안합니다.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

이 논문은 AdaIN 을 통해 기하학적 불일치와 도메인별 외관 변화를 분리하고 위치 인코딩된 시간적 어텐션 메커니즘을 활용하여 변형 필드 추정 없이 교차 도메인 이미지 정합을 수행하는 GPEReg-Net 을 제안하며, 기존 방법들보다 뛰어난 성능과 빠른 처리 속도를 입증했습니다.

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

이 논문은 CT 슬라이드의 국소 특징과 볼륨의 공간적 관계를 통합적으로 이해하여 기존 모델의 한계를 극복하고 임상적 유용성을 높인 통일된 슬라이드 - 볼륨 LVLM 인 'OmniCT'와 대규모 평가 데이터셋 'MedEval-CT'를 제안합니다.

Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang + 12 more2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

이 논문은 전자 현미경 이미지의 도메인 적응 분할을 위해 희소 점과 지역적 인간 선호도를 약한 레이블로 활용하여, SAM 기반 방법 및 기존 적응 기법보다 우수한 성능과 유연성을 보이는 'Prefer-DAS'라는 새로운 모델을 제안합니다.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

이 논문은 고정된 해상도 처리의 한계를 극복하고 조직의 위상학적 구조를 효율적으로 분석하기 위해 희소 위상 패킹 어텐션 메커니즘과 전문가 검증 데이터셋을 도입한 간세포암 진단용 멀티모달 대규모 언어 모델 'Hepato-LLaVA'를 제안합니다.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

이 논문은 의료 영상 분할 모델의 블랙박스 문제를 해결하기 위해 인과 추론 프레임워크를 활용하여 입력 영역과 네트워크 구성 요소가 분할 결과에 미치는 영향을 정량화하는 새로운 설명 기법을 제안하고, 기존 방법보다 더 충실한 설명을 제공하며 다양한 모델의 인지 전략 차이를 규명함을 보여줍니다.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

이 논문은 대규모 이미지 데이터셋의 저장 공간을 줄이면서도 모델 학습에 필수적인 정보를 보존하기 위해, 이미지 내 색상 중복성을 제거하고 모델이 인식하는 중요한 색상을 선택적으로 유지하는 '데이터셋 색상 양자화 (DCQ)'라는 새로운 프레임워크를 제안하고 다양한 벤치마크에서 그 효과를 입증합니다.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

이 논문은 안전하지 않은 텍스트 프롬프트의 악의적 의도를 참조 이미지의 시각적 지시문으로 위장하여 이미지 - 비디오 생성 모델을 우회하는 '시각적 지시 주입 (VII)'이라는 새로운 훈련 없는 탈옥 프레임워크를 제안하고, 네 가지 상용 모델에서 83.5% 의 높은 공격 성공률을 입증합니다.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

이 논문은 Gaussian Splats 와 Mesh 를 결합한 3D 표현과 비디오 확산 모델을 활용하여, 다양한 궤적과 차량을 자유롭게 편집하면서도 높은 사실감과 일관성을 유지하는 자율주행 시뮬레이션 프레임워크 'HorizonForge'를 제안합니다.

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

← 이전 다음 →