cs.CV 편의 논문 | Gist.Science

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

이 논문은 물리적 속성 정보가 없는 미지의 환경에서 다중 시점 영상 관측만으로 천의 역학을 학습할 수 있도록, 비디오-기하학적 정합과 역학 모델 훈련을 결합한 비지도 학습 프레임워크인 CloDS 를 제안합니다.

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

이 논문은 기존 벤치마크의 한계를 극복하고 현실적인 조건을 반영한 '비전-딥리서치 벤치마크 (VDR-Bench)'를 구축하고, 이를 통해 현재 멀티모달 모델의 시각적 검색 능력을 향상시키기 위한 다중 라운드 크롭 검색 워크플로우를 제안합니다.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Investigating Disability Representations in Text-to-Image Models

본 논문은 Stable Diffusion XL 및 DALL-E 3 를 분석하여 텍스트 - 이미지 생성 모델이 장애인을 어떻게 표현하는지, 그리고 완화 전략이 이러한 표현에 미치는 영향을 감정 분석과 인간 평가를 통해 조사하여 지속적이고 포용적인 장애 묘사를 위한 개선의 필요성을 강조합니다.

Yang Tian, Yu Fan, Liudmila Zavolokina + 1 more2026-03-03💬 cs.CL

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

이 논문은 2D 이미지 모델의 계산 효율성을 유지하면서 가변 길이의 비디오를 프레임 단위로 편집할 수 있도록 잔차 흐름을 학습하는 'RFDM'을 제안하고, 이를 통해 기존 방법들보다 효율적이면서도 성능이 우수한 비디오 편집 솔루션을 제시합니다.

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

이 논문은 자연물 이미지로 훈련된 3D 생성 모델들이 의료 단층 촬영 데이터에서는 심층적 모호성으로 인해 부피 재구성에 실패하지만, SAM3D 가 다른 모델들보다 해부학적 위상 구조를 더 잘 포착한다는 것을 다양한 벤치마크를 통해 규명하고, 의료용 3D 재구성을 위해서는 도메인 특화 적응과 해부학적 제약이 필수적임을 강조합니다.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

이 논문은 실시간 스트리밍 환경에서 발생하는 지연과 시간적 불안정성을 해결하기 위해, 다중 교사 학습, 적응형 CFG 보정, 하이브리드 롱 테일 포싱, VAE 디코더 정제라는 네 가지 핵심 기법을 도입하여 저지연·고품질·동기화된 멀티모달 비디오 생성을 가능하게 하는 'EchoTorrent' 모델을 제안합니다.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

이 논문은 AdaIN 을 통해 기하학적 불일치와 도메인별 외관 변화를 분리하고 위치 인코딩된 시간적 어텐션 메커니즘을 활용하여 변형 필드 추정 없이 교차 도메인 이미지 정합을 수행하는 GPEReg-Net 을 제안하며, 기존 방법들보다 뛰어난 성능과 빠른 처리 속도를 입증했습니다.

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

이 논문은 CT 슬라이드의 국소 특징과 볼륨의 공간적 관계를 통합적으로 이해하여 기존 모델의 한계를 극복하고 임상적 유용성을 높인 통일된 슬라이드 - 볼륨 LVLM 인 'OmniCT'와 대규모 평가 데이터셋 'MedEval-CT'를 제안합니다.

Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang + 12 more2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

이 논문은 전자 현미경 이미지의 도메인 적응 분할을 위해 희소 점과 지역적 인간 선호도를 약한 레이블로 활용하여, SAM 기반 방법 및 기존 적응 기법보다 우수한 성능과 유연성을 보이는 'Prefer-DAS'라는 새로운 모델을 제안합니다.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

이 논문은 고정된 해상도 처리의 한계를 극복하고 조직의 위상학적 구조를 효율적으로 분석하기 위해 희소 위상 패킹 어텐션 메커니즘과 전문가 검증 데이터셋을 도입한 간세포암 진단용 멀티모달 대규모 언어 모델 'Hepato-LLaVA'를 제안합니다.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

이 논문은 의료 영상 분할 모델의 블랙박스 문제를 해결하기 위해 인과 추론 프레임워크를 활용하여 입력 영역과 네트워크 구성 요소가 분할 결과에 미치는 영향을 정량화하는 새로운 설명 기법을 제안하고, 기존 방법보다 더 충실한 설명을 제공하며 다양한 모델의 인지 전략 차이를 규명함을 보여줍니다.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

이 논문은 대규모 이미지 데이터셋의 저장 공간을 줄이면서도 모델 학습에 필수적인 정보를 보존하기 위해, 이미지 내 색상 중복성을 제거하고 모델이 인식하는 중요한 색상을 선택적으로 유지하는 '데이터셋 색상 양자화 (DCQ)'라는 새로운 프레임워크를 제안하고 다양한 벤치마크에서 그 효과를 입증합니다.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

이 논문은 안전하지 않은 텍스트 프롬프트의 악의적 의도를 참조 이미지의 시각적 지시문으로 위장하여 이미지 - 비디오 생성 모델을 우회하는 '시각적 지시 주입 (VII)'이라는 새로운 훈련 없는 탈옥 프레임워크를 제안하고, 네 가지 상용 모델에서 83.5% 의 높은 공격 성공률을 입증합니다.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HorizonForge: Driving Scene Editing with Any Trajectories and Any Vehicles

이 논문은 Gaussian Splats 와 Mesh 를 결합한 3D 표현과 비디오 확산 모델을 활용하여, 다양한 궤적과 차량을 자유롭게 편집하면서도 높은 사실감과 일관성을 유지하는 자율주행 시뮬레이션 프레임워크 'HorizonForge'를 제안합니다.

Yifan Wang, Francesco Pittaluga, Zaid Tasneem + 3 more2026-03-03💻 cs

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

이 논문은 단안 깊이 정보에서 계산된 빛 - 기하학적 상호작용 (LGI) 맵을 도입하여 물리적으로 일관된 그림자 생성과 재조명을 위한 통합 파이프라인을 제안하고, 이를 학습하기 위한 대규모 데이터셋을 구축하여 현실감과 일관성을 크게 향상시켰습니다.

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

이 논문은 사용자로부터의 상세한 지시 없이도 미적 의도를 추론하고 트리 탐색을 통해 다단계 편집을 계획하며 폐루프 피드백을 통해 결과를 정제하는 자율적 사진 편집 시스템인 PhotoAgent 와 이를 평가하기 위한 UGC-Edit 벤치마크를 제안합니다.

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

OmniGAIA: Towards Native Omni-Modal AI Agents

이 논문은 비전, 오디오, 언어를 통합한 심층 추론과 도구 사용을 평가하기 위한 벤치마크 'OmniGAIA'와 이를 기반으로 한 원천 오모달 에이전트 'OmniAtlas'를 제안하여 차세대 범용 AI 어시스턴트 개발을 위한 중요한 진전을 이루었다고 요약할 수 있습니다.

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin + 8 more2026-03-03💬 cs.CL

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

이 논문은 UI 디자인 시스템을 위해 CIE XYZ 를 지각적으로 조직화된 Lab 표현으로 변환하는 72 매개변수 분석적 색상 공간인 HELMLAB 을 제안하며, COMBVD 데이터셋에서 CIEDE2000 대비 20.2% 의 STRESS 감소와 높은 정밀도의 역변환을 통해 지각적 거리 측정을 개선하고 다양한 디자인 시스템 도구를 제공함을 보여줍니다.

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

이 논문은 기존 벤치마크의 한계를 극복하고 현실적이고 복잡한 시각적 시나리오에서 장기적 도구 활용 능력을 평가하기 위해 25 개의 하위 도메인과 7 개 카테고리에 걸친 'AgentVista'라는 새로운 멀티모달 에이전트 벤치마크를 소개하며, 최신 모델들이 이러한 과제를 해결하는 데 여전히 큰 격차가 있음을 보여줍니다.

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

이 논문은 상태 정보 없이 이미지 기반 궤적 데이터만으로 잠재 공간에서 도달 가능 영역 (ROA) 을 추정하는 새로운 방법인 V-MORALS 를 제안합니다.

Faiz Aladin, Ashwin Balasubramanian, Lars Lindemann + 1 more2026-03-03🤖 cs.LG

← 이전 다음 →