Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

이 논문은 자연물 이미지로 훈련된 3D 생성 모델들이 의료 단층 촬영 데이터에서는 심층적 모호성으로 인해 부피 재구성에 실패하지만, SAM3D 가 다른 모델들보다 해부학적 위상 구조를 더 잘 포착한다는 것을 다양한 벤치마크를 통해 규명하고, 의료용 3D 재구성을 위해서는 도메인 특화 적응과 해부학적 제약이 필수적임을 강조합니다.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

이 논문은 실시간 스트리밍 환경에서 발생하는 지연과 시간적 불안정성을 해결하기 위해, 다중 교사 학습, 적응형 CFG 보정, 하이브리드 롱 테일 포싱, VAE 디코더 정제라는 네 가지 핵심 기법을 도입하여 저지연·고품질·동기화된 멀티모달 비디오 생성을 가능하게 하는 'EchoTorrent' 모델을 제안합니다.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

이 논문은 고정된 해상도 처리의 한계를 극복하고 조직의 위상학적 구조를 효율적으로 분석하기 위해 희소 위상 패킹 어텐션 메커니즘과 전문가 검증 데이터셋을 도입한 간세포암 진단용 멀티모달 대규모 언어 모델 'Hepato-LLaVA'를 제안합니다.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

이 논문은 의료 영상 분할 모델의 블랙박스 문제를 해결하기 위해 인과 추론 프레임워크를 활용하여 입력 영역과 네트워크 구성 요소가 분할 결과에 미치는 영향을 정량화하는 새로운 설명 기법을 제안하고, 기존 방법보다 더 충실한 설명을 제공하며 다양한 모델의 인지 전략 차이를 규명함을 보여줍니다.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

이 논문은 대규모 이미지 데이터셋의 저장 공간을 줄이면서도 모델 학습에 필수적인 정보를 보존하기 위해, 이미지 내 색상 중복성을 제거하고 모델이 인식하는 중요한 색상을 선택적으로 유지하는 '데이터셋 색상 양자화 (DCQ)'라는 새로운 프레임워크를 제안하고 다양한 벤치마크에서 그 효과를 입증합니다.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

이 논문은 안전하지 않은 텍스트 프롬프트의 악의적 의도를 참조 이미지의 시각적 지시문으로 위장하여 이미지 - 비디오 생성 모델을 우회하는 '시각적 지시 주입 (VII)'이라는 새로운 훈련 없는 탈옥 프레임워크를 제안하고, 네 가지 상용 모델에서 83.5% 의 높은 공격 성공률을 입증합니다.

Bowen Zheng, Yongli Xiang, Ziming Hong + 4 more2026-03-03💻 cs

HELMLAB: An Analytical, Data-Driven Color Space for Perceptual Distance in UI Design Systems

이 논문은 UI 디자인 시스템을 위해 CIE XYZ 를 지각적으로 조직화된 Lab 표현으로 변환하는 72 매개변수 분석적 색상 공간인 HELMLAB 을 제안하며, COMBVD 데이터셋에서 CIEDE2000 대비 20.2% 의 STRESS 감소와 높은 정밀도의 역변환을 통해 지각적 거리 측정을 개선하고 다양한 디자인 시스템 도구를 제공함을 보여줍니다.

Gorkem Yildiz2026-03-03💻 cs

AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

이 논문은 기존 벤치마크의 한계를 극복하고 현실적이고 복잡한 시각적 시나리오에서 장기적 도구 활용 능력을 평가하기 위해 25 개의 하위 도메인과 7 개 카테고리에 걸친 'AgentVista'라는 새로운 멀티모달 에이전트 벤치마크를 소개하며, 최신 모델들이 이러한 과제를 해결하는 데 여전히 큰 격차가 있음을 보여줍니다.

Zhaochen Su, Jincheng Gao, Hangyu Guo + 10 more2026-03-03💻 cs