AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

이 논문은 가족력 데이터를 임상 이미지와 결합한 해석 가능한 다중 모달 AI 프레임워크를 개발하여 피부 질환의 진단 정확도를 향상시키고, 향후 다양한 의료 환경에서의 전향적 임상 검증을 통해 임상 현장에 효과적으로 적용할 수 있는 포괄적인 체계를 제시합니다.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

ForCM: Forest Cover Mapping from Multispectral Sentinel-2 Image by Integrating Deep Learning with Object-Based Image Analysis

본 연구는 심층 학습 모델 (UNet, ResUNet, AttentionUNet 등) 과 객체 기반 이미지 분석 (OBIA) 을 결합한 'ForCM'을 제안하여 아마존 열대우림의 Sentinel-2 위성 영상을 활용한 산림 피복 매핑 정확도를 기존 OBIA 방법 대비 95.64% 까지 향상시켰음을 보여줍니다.

Maisha Haque, Israt Jahan Ayshi, Sadaf M. Anis + 8 more2026-03-03🤖 cs.AI

Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization

이 논문은 확산 트랜스포머 (DiT) 가속화 시 발생하는 누적 오차를 최소화하는 동적 프로그래밍 기반의 플러그인 'CEM'을 제안하여, 기존 오차 보정 방법의 성능을 획기적으로 향상시키고 다양한 생성 모델에서 원본 수준의 생성 품질을 유지하거나 초과하는 것을 입증합니다.

Tong Shao, Yusen Fu, Guoying Sun + 3 more2026-03-03💻 cs

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

이 논문은 사전 학습된 모델의 재학습 없이 CLIP 기반의 그라디언트와 기하학적 제약 조건을 결합하여 텍스트 프롬프트로 설명된 3D 객체 간의 제로샷 공간 정렬을 수행하는 새로운 프레임워크를 제안하고, 이를 통해 의미론적으로 정확하고 물리적으로 타당한 정렬 결과를 도출함을 보여줍니다.

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs

Counterfactual Explanations on Robust Perceptual Geodesics

이 논문은 Wachter 등 의 기존 방법론이 가진 거리 측정의 모호성과 오프-매니폴드 문제를 해결하기 위해, 견고한 비전 특징에서 유도된 지각적 리만 계량 하의 측지선을 따라 반사실 설명을 생성하는 '지각적 반사실 측지선 (PCG)'을 제안하고, 이를 통해 인간 지각과 정렬된 매끄럽고 의미 있는 전환을 가능하게 함을 보여줍니다.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

이 논문은 복잡한 시각적 노이즈와 다양한 정보 소스가 필요한 현실 세계의 문제를 해결하기 위해, 다중 턴·다중 엔티티·다중 스케일의 검색을 수행하고 강화학습을 통해 심층 연구 능력을 내재화한 새로운 멀티모달 딥러닝 모델 'Vision-DeepResearch'를 제안합니다.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

이 논문은 자연물 이미지로 훈련된 3D 생성 모델들이 의료 단층 촬영 데이터에서는 심층적 모호성으로 인해 부피 재구성에 실패하지만, SAM3D 가 다른 모델들보다 해부학적 위상 구조를 더 잘 포착한다는 것을 다양한 벤치마크를 통해 규명하고, 의료용 3D 재구성을 위해서는 도메인 특화 적응과 해부학적 제약이 필수적임을 강조합니다.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

이 논문은 실시간 스트리밍 환경에서 발생하는 지연과 시간적 불안정성을 해결하기 위해, 다중 교사 학습, 적응형 CFG 보정, 하이브리드 롱 테일 포싱, VAE 디코더 정제라는 네 가지 핵심 기법을 도입하여 저지연·고품질·동기화된 멀티모달 비디오 생성을 가능하게 하는 'EchoTorrent' 모델을 제안합니다.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs