cs.CV 편의 논문 | Gist.Science

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

이 논문은 의료 영상 분할 모델의 블랙박스 문제를 해결하기 위해 인과 추론 프레임워크를 활용하여 입력 영역과 네트워크 구성 요소가 분할 결과에 미치는 영향을 정량화하는 새로운 설명 기법을 제안하고, 기존 방법보다 더 충실한 설명을 제공하며 다양한 모델의 인지 전략 차이를 규명함을 보여줍니다.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

이 논문은 대규모 이미지 데이터셋의 저장 공간을 줄이면서도 모델 학습에 필수적인 정보를 보존하기 위해, 이미지 내 색상 중복성을 제거하고 모델이 인식하는 중요한 색상을 선택적으로 유지하는 '데이터셋 색상 양자화 (DCQ)'라는 새로운 프레임워크를 제안하고 다양한 벤치마크에서 그 효과를 입증합니다.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

이 논문은 안전하지 않은 텍스트 프롬프트의 악의적 의도를 참조 이미지의 시각적 지시문으로 위장하여 이미지 - 비디오 생성 모델을 우회하는 '시각적 지시 주입 (VII)'이라는 새로운 훈련 없는 탈옥 프레임워크를 제안하고, 네 가지 상용 모델에서 83.5% 의 높은 공격 성공률을 입증합니다.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

이 논문은 Gaussian Splats 와 Mesh 를 결합한 3D 표현과 비디오 확산 모델을 활용하여, 다양한 궤적과 차량을 자유롭게 편집하면서도 높은 사실감과 일관성을 유지하는 자율주행 시뮬레이션 프레임워크 'HorizonForge'를 제안합니다.

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

이 논문은 단안 깊이 정보에서 계산된 빛 - 기하학적 상호작용 (LGI) 맵을 도입하여 물리적으로 일관된 그림자 생성과 재조명을 위한 통합 파이프라인을 제안하고, 이를 학습하기 위한 대규모 데이터셋을 구축하여 현실감과 일관성을 크게 향상시켰습니다.

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

이 논문은 사용자로부터의 상세한 지시 없이도 미적 의도를 추론하고 트리 탐색을 통해 다단계 편집을 계획하며 폐루프 피드백을 통해 결과를 정제하는 자율적 사진 편집 시스템인 PhotoAgent 와 이를 평가하기 위한 UGC-Edit 벤치마크를 제안합니다.

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

OmniGAIA: Towards Native Omni-Modal AI Agents

이 논문은 비전, 오디오, 언어를 통합한 심층 추론과 도구 사용을 평가하기 위한 벤치마크 'OmniGAIA'와 이를 기반으로 한 원천 오모달 에이전트 'OmniAtlas'를 제안하여 차세대 범용 AI 어시스턴트 개발을 위한 중요한 진전을 이루었다고 요약할 수 있습니다.

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin + 8 more2026-03-03💬 cs.CL

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

이 논문은 UI 디자인 시스템을 위해 CIE XYZ 를 지각적으로 조직화된 Lab 표현으로 변환하는 72 매개변수 분석적 색상 공간인 HELMLAB 을 제안하며, COMBVD 데이터셋에서 CIEDE2000 대비 20.2% 의 STRESS 감소와 높은 정밀도의 역변환을 통해 지각적 거리 측정을 개선하고 다양한 디자인 시스템 도구를 제공함을 보여줍니다.

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

이 논문은 기존 벤치마크의 한계를 극복하고 현실적이고 복잡한 시각적 시나리오에서 장기적 도구 활용 능력을 평가하기 위해 25 개의 하위 도메인과 7 개 카테고리에 걸친 'AgentVista'라는 새로운 멀티모달 에이전트 벤치마크를 소개하며, 최신 모델들이 이러한 과제를 해결하는 데 여전히 큰 격차가 있음을 보여줍니다.

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

이 논문은 상태 정보 없이 이미지 기반 궤적 데이터만으로 잠재 공간에서 도달 가능 영역 (ROA) 을 추정하는 새로운 방법인 V-MORALS 를 제안합니다.

Faiz Aladin, Ashwin Balasubramanian, Lars Lindemann + 1 more2026-03-03🤖 cs.LG

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

이 논문은 전 슬라이드 이미지 (WSI) 내의 다중 스케일 상호작용과 공간적 계층 구조를 모델링하여 기존 MIL 기반 모델보다 생존 예측 성능을 크게 향상시킨 계층적 다중 스케일 지식 인식 그래프 네트워크 (HMKGN) 를 제안하고 TCGA 코호트에서 그 유효성을 입증합니다.

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess

AoE: Always-on Egocentric Human Video Collection for Embodied AI

이 논문은 스마트폰과 클라우드 - 엣지 협업 아키텍처를 활용하여 저비용으로 대규모 고품질 안구 중심 (Egocentric) 상호작용 데이터를 수집하는 'AoE' 시스템을 제안함으로써, embodied AI 의 확장성을 높이고 실세계 일반화 성능을 향상시키는 방법을 제시합니다.

Bowen Yang, Zishuo Li, Yang Sun + 15 more2026-03-03💻 cs

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

이 논문은 40 명의 소규모 fMRI 데이터를 활용한 전구기 파킨슨병 탐지 연구에서, 피험체 단위의 엄격한 분할 평가가 필수적임을 입증하고, 데이터 부족 환경에서는 모델의 용량이 깊이보다 일반화 성능에 더 중요한 영향을 미치며 경량 모델인 MobileNet 이 가장 우수한 성능을 보임을 규명했습니다.

Naimur Rahman2026-03-03🤖 cs.LG

← 이전 다음 →

cs.CV

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

OmniGAIA: Towards Native Omni-Modal AI Agents

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

AoE: Always-on Egocentric Human Video Collection for Embodied AI

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

Automated Quality Check of Sensor Data Annotations

Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

VoxelDiffusionCut: Non-destructive Internal-part Extraction via Iterative Cutting and Structure Estimation

Efficient Image Super-Resolution with Multi-Scale Spatial Adaptive Attention Networks

BiSe-Unet: A Lightweight Dual-path U-Net with Attention-refined Context for Real-time Medical Image Segmentation

NovaLAD: A Fast, CPU-Optimized Document Extraction Pipeline for Generative AI and Data Intelligence