cs.CV 편의 논문 | Gist.Science

Joint Shadow Generation and Relighting via Light-Geometry Interaction Maps

이 논문은 단안 깊이 정보에서 계산된 빛 - 기하학적 상호작용 (LGI) 맵을 도입하여 물리적으로 일관된 그림자 생성과 재조명을 위한 통합 파이프라인을 제안하고, 이를 학습하기 위한 대규모 데이터셋을 구축하여 현실감과 일관성을 크게 향상시켰습니다.

Shan Wang, Peixia Li, Chenchen Xu + 4 more2026-03-03💻 cs

PhotoAgent: Agentic Photo Editing with Exploratory Visual Aesthetic Planning

이 논문은 사용자로부터의 상세한 지시 없이도 미적 의도를 추론하고 트리 탐색을 통해 다단계 편집을 계획하며 폐루프 피드백을 통해 결과를 정제하는 자율적 사진 편집 시스템인 PhotoAgent 와 이를 평가하기 위한 UGC-Edit 벤치마크를 제안합니다.

Mingde Yao, Zhiyuan You, King-Man Tam + 2 more2026-03-03💻 cs

OmniGAIA: Towards Native Omni-Modal AI Agents

이 논문은 비전, 오디오, 언어를 통합한 심층 추론과 도구 사용을 평가하기 위한 벤치마크 'OmniGAIA'와 이를 기반으로 한 원천 오모달 에이전트 'OmniAtlas'를 제안하여 차세대 범용 AI 어시스턴트 개발을 위한 중요한 진전을 이루었다고 요약할 수 있습니다.

Xiaoxi Li, Wenxiang Jiao, Jiarui Jin + 8 more2026-03-03💬 cs.CL

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

이 논문은 UI 디자인 시스템을 위해 CIE XYZ 를 지각적으로 조직화된 Lab 표현으로 변환하는 72 매개변수 분석적 색상 공간인 HELMLAB 을 제안하며, COMBVD 데이터셋에서 CIEDE2000 대비 20.2% 의 STRESS 감소와 높은 정밀도의 역변환을 통해 지각적 거리 측정을 개선하고 다양한 디자인 시스템 도구를 제공함을 보여줍니다.

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

이 논문은 기존 벤치마크의 한계를 극복하고 현실적이고 복잡한 시각적 시나리오에서 장기적 도구 활용 능력을 평가하기 위해 25 개의 하위 도메인과 7 개 카테고리에 걸친 'AgentVista'라는 새로운 멀티모달 에이전트 벤치마크를 소개하며, 최신 모델들이 이러한 과제를 해결하는 데 여전히 큰 격차가 있음을 보여줍니다.

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs

V-MORALS: Visual Morse Graph-Aided Estimation of Regions of Attraction in a Learned Latent Space

이 논문은 상태 정보 없이 이미지 기반 궤적 데이터만으로 잠재 공간에서 도달 가능 영역 (ROA) 을 추정하는 새로운 방법인 V-MORALS 를 제안합니다.

Faiz Aladin, Ashwin Balasubramanian, Lars Lindemann + 1 more2026-03-03🤖 cs.LG

Hierarchical Multi-Scale Graph Learning with Knowledge-Guided Attention for Whole-Slide Image Survival Analysis

이 논문은 전 슬라이드 이미지 (WSI) 내의 다중 스케일 상호작용과 공간적 계층 구조를 모델링하여 기존 MIL 기반 모델보다 생존 예측 성능을 크게 향상시킨 계층적 다중 스케일 지식 인식 그래프 네트워크 (HMKGN) 를 제안하고 TCGA 코호트에서 그 유효성을 입증합니다.

Bin Xu, Yufei Zhou, Boling Song + 6 more2026-03-03⚡ eess

AoE: Always-on Egocentric Human Video Collection for Embodied AI

이 논문은 스마트폰과 클라우드 - 엣지 협업 아키텍처를 활용하여 저비용으로 대규모 고품질 안구 중심 (Egocentric) 상호작용 데이터를 수집하는 'AoE' 시스템을 제안함으로써, embodied AI 의 확장성을 높이고 실세계 일반화 성능을 향상시키는 방법을 제시합니다.

Bowen Yang, Zishuo Li, Yang Sun + 15 more2026-03-03💻 cs

Learning Under Extreme Data Scarcity: Subject-Level Evaluation of Lightweight CNNs for fMRI-Based Prodromal Parkinsons Detection

이 논문은 40 명의 소규모 fMRI 데이터를 활용한 전구기 파킨슨병 탐지 연구에서, 피험체 단위의 엄격한 분할 평가가 필수적임을 입증하고, 데이터 부족 환경에서는 모델의 용량이 깊이보다 일반화 성능에 더 중요한 영향을 미치며 경량 모델인 MobileNet 이 가장 우수한 성능을 보임을 규명했습니다.

Naimur Rahman2026-03-03🤖 cs.LG

Certainty-Validity: A Diagnostic Framework for Discrete Commitment Systems

이 논문은 이산적 의사결정 시스템에서 표준 정확도 지표가 놓치는 '확신 있는 오류'를 식별하기 위해 확신과 유효성을 구분하는 '확신 - 유효성 (CVS)' 프레임워크를 제안하고, 모호한 데이터에 대한 모델의 확신 유보가 오히려 필수적인 기능임을 입증합니다.

Datorien L. Anderson2026-03-03🤖 cs.LG

Automated Quality Check of Sensor Data Annotations

이 논문은 자율주행 열차용 다중 센서 데이터의 품질을 자동으로 검증하여 수동 작업량을 줄이고 시스템 개발을 가속화하는 오픈소스 도구를 제안하며, 9 가지 일반 오류를 탐지하는 데 높은 정밀도를 입증했습니다.

Niklas Freund, Zekiye Ilknur-Öz, Tobias Klockau + 3 more2026-03-03💻 cs

Multimodal Modular Chain of Thoughts in Energy Performance Certificate Assessment

이 논문은 데이터가 부족한 환경에서 비주얼-언어 모델을 활용하여 에너지 성능 증명서 (EPC) 평가를 위한 비용 효율적인 자동화 프레임워크인 '다중 모달 모듈 체인 오브 생각 (MMCoT)'을 제안하고, 영국 주거용 건물 데이터셋을 통해 기존 프롬프팅 방식보다 통계적으로 유의미한 성능 향상을 입증했습니다.

Zhen Peng, Peter J. Bentley2026-03-03🤖 cs.AI

VoxelDiffusionCut: Non-destructive Internal-part Extraction via Iterative Cutting and Structure Estimation

본 논문은 고차원 3D 형상 표현의 학습 난이도와 기존 모델의 모드 붕괴 문제를 해결하기 위해, 확산 모델을 활용해 절단면을 기반으로 내부 구조를 확률적으로 추정하고 이를 통해 배터리나 모터와 같은 내부 부품을 비파괴적으로 추출하는 'VoxelDiffusionCut' 방법을 제안합니다.

Takumi Hachimine, Yuhwan Kwon, Cheng-Yu Kuo + 2 more2026-03-03💻 cs

Efficient Image Super-Resolution with Multi-Scale Spatial Adaptive Attention Networks

이 논문은 고해상도 복원 성능과 낮은 모델 복잡도 사이의 균형을 해결하기 위해, 다중 스케일 공간 적응 어텐션 모듈과 같은 새로운 구성 요소를 도입하여 기존 최첨단 방법보다 뛰어난 성능과 효율성을 보이는 경량 이미지 초해상도 네트워크인 MSAAN 을 제안합니다.

Sushi Rao, Jingwei Li2026-03-03💻 cs

BiSe-Unet: A Lightweight Dual-path U-Net with Attention-refined Context for Real-time Medical Image Segmentation

이 논문은 엣지 하드웨어에서 실시간 의료 영상 분할을 가능하게 하기 위해 경량화된 이중 경로 U-Net 아키텍처인 BiSe-UNet 을 제안하고, Kvasir-Seg 데이터셋에서 30 FPS 이상의 처리 속도와 높은 정확도를 달성함을 입증합니다.

M Iffat Hossain, Laura Brattain2026-03-03💻 cs

NovaLAD: A Fast, CPU-Optimized Document Extraction Pipeline for Generative AI and Data Intelligence

이 논문은 GPU 없이도 CPU 에서 고속으로 실행 가능한 NovaLAD 라는 문서 추출 파이프라인을 제안하며, 동시 YOLO 모델과 규칙 기반 그룹화, 선택적 비전 언어 모델을 활용해 DP-Bench 벤치마크에서 상용 및 오픈소스 파서보다 우수한 성능을 달성한 것을 설명합니다.

Aman Ulla2026-03-03🤖 cs.AI

CT-Flow: Orchestrating CT Interpretation Workflow with Model Context Protocol Servers

이 논문은 3D CT 분석을 위해 모델 컨텍스트 프로토콜 (MCP) 을 활용한 에이전트 기반 프레임워크인 CT-Flow 를 제안하고, 이를 통해 임상적 워크플로우를 자동화하며 기존 모델 대비 진단 정확도를 41% 향상시킨 CT-FlowBench 벤치마크를 구축한 연구입니다.

Yannian Gu, Xizhuo Zhang, Linjie Mu + 4 more2026-03-03🤖 cs.AI

QuickGrasp: Responsive Video-Language Querying Service via Accelerated Tokenization and Edge-Augmented Inference

이 논문은 로컬 환경에서 가속화된 토큰화 기술과 에지 증강 인퍼레이션을 결합하여 대규모 비디오 - 언어 모델의 정확도를 유지하면서도 응답 지연을 최대 12.8 배까지 단축하는 'QuickGrasp' 시스템을 제안합니다.

Miao Zhang, Ruixiao Zhang, Jianxin Shi + 3 more2026-03-03⚡ eess

Segmenting Low-Contrast XCTs of Concretes: An Unsupervised Approach

이 논문은 콘크리트 XCT 이미지의 낮은 대비로 인한 레이블 데이터 부족 문제를 해결하기 위해, 슈퍼픽셀 알고리즘과 CNN 의 수용 영역을 결합한 자기 주석 기반 비지도 학습 방법을 제안하고 그 성능을 검증합니다.

Kaustav Das, Gaston Rauchs, Jan Sykora + 1 more2026-03-03💻 cs

Predicting Local Climate Zones using Urban Morphometrics and Satellite Imagery

이 연구는 321 가지 2 차원 도시 형태 측정치를 기반으로 한 국지 기후대 (LCZ) 예측과 위성 영상과의 융합 방식을 평가한 결과, 도시 형태와 LCZ 간의 관계가 불확실하고 일관성이 부족하여 형태 분석에서 LCZ 프레임워크를 사용할 때 주의가 필요함을 시사합니다.

Hugo Majer, Martin Fleischmann2026-03-03💻 cs

← 이전 다음 →