cs.CV 편의 논문 | Gist.Science

TumorFlow: Physics-Guided Longitudinal MRI Synthesis of Glioblastoma Growth

이 논문은 생물물리학적 성장 모델을 생성 모델과 결합하여 뇌종양의 실제 관측을 넘어선 환자별 3D MRI 종양 성장 궤적을 일관되게 합성하고 예측하는 'TumorFlow' 프레임워크를 제안합니다.

Valentin Biller, Niklas Bubeck, Lucas Zimmer + 6 more2026-03-06💻 cs

NOVA3R: Non-pixel-aligned Visual Transformer for Amodal 3D Reconstruction

이 논문은 포즈가 알려지지 않은 이미지들로부터 피크셀 정렬 방식의 한계를 극복하고, 가시 및 비가시 영역을 모두 포함하는 물리적으로 타당한 3D 장면을 재구성하는 새로운 비피크셀 정렬 시각 트랜스포머 모델 'NOVA3R'을 제안합니다.

Weirong Chen, Chuanxia Zheng, Ganlin Zhang + 2 more2026-03-06💻 cs

A Unified Framework for Joint Detection of Lacunes and Enlarged Perivascular Spaces

이 논문은 뇌혈관 질환 표지자 (확장된 혈관주위 공간과 라쿠나) 의 방사학적 유사성으로 인한 과적합 및 클래스 불균형 문제를 해결하기 위해, 형태학적 해리 프레임워크와 혼합 감독 전략을 도입하여 VALDO 2021 및 EPAD 코호트에서 기존 최첨단 모델을 능가하는 정밀한 동시 검출 성능을 입증했습니다.

Lucas He, Krinos Li, Hanyuan Zhang + 7 more2026-03-06💻 cs

Gaussian Wardrobe: Compositional 3D Gaussian Avatars for Free-Form Virtual Try-On

이 논문은 다중 뷰 비디오에서 신체와 의복을 분리하여 학습하는 '가우시안 워드robe' 프레임워크를 제안함으로써, 복잡한 자유형 의복의 동적 표현과 다양한 인체 간 의복 재사용이 가능한 고품질 3D 가상 의상 입기 기술을 구현했습니다.

Zhiyi Chen, Hsuan-I Ho, Tianjian Jiang + 3 more2026-03-06💻 cs

Lost in Translation: How Language Re-Aligns Vision for Cross-Species Pathology

본 논문은 언어 기반 정렬 메커니즘인 '시맨틱 앵커링 (Semantic Anchoring)'을 도입하여 CPath-CLIP 모델이 종간 전이 학습 시 겪는 시맨틱 붕괴 문제를 해결하고, 텍스트가 시각적 특징을 재해석하여 암 진단 성능을 획기적으로 개선함을 입증했습니다.

Ekansh Arora2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

이 논문은 'Dual Tuning' 프레임워크를 통해 다양한 멀티모달 작업에서 추론의 유익성을 정량화하고 '생각의 경계 (Thinking Boundary)'를 설정함으로써, 모든 작업에 무조건적인 추론을 적용하는 관행에 도전하고 데이터 및 학습 전략을 최적화하는 실용적인 지침을 제시합니다.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

이 논문은 에이전트의 장기적 발전과 기술 전수를 위해 20 만 개 이상의 기술을 체계적으로 생성, 평가 및 연결하는 오픈 인프라 'SkillNet'을 제안하며, 이를 통해 에이전트의 성능을 크게 향상시키고 실행 단계를 줄인다는 것을 보여줍니다.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed ⓘ💻 cs

Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living

이 논문은 3D CNN, 그래프 합성곱 네트워크, 그리고 객체 감지 정보를 크로스 어텐션 메커니즘으로 융합한 다중 모달 딥러닝 방식을 제안하여, 고령자의 일상 활동 인식 정확도를 향상시키고 Ambient Assisted Living 시스템의 안전성과 자율성을 강화하는 것을 목표로 합니다.

Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta2026-03-06💻 cs

InverseNet: Benchmarking Operator Mismatch and Calibration Across Compressive Imaging Modalities

이 논문은 실제 물리적 환경에서 발생하는 연산자 불일치 문제를 정량화하기 위해 CASSI, CACTI, 단일 픽셀 카메라 등 다양한 압축 영상 모달리티를 아우르는 최초의 벤치마크 'InverseNet'을 제안하고, 심층 학습 기반 방법론이 불일치 조건에서 기존 기법 대비 우위를 상실하며 연산자 조건부 아키텍처와 블라인드 보정이 성능 회복에 결정적임을 실험을 통해 입증합니다.

Chengshuai Yang, Xin Yuan2026-03-06💻 cs

Fusion and Grouping Strategies in Deep Learning for Local Climate Zone Classification of Multimodal Remote Sensing Data

이 논문은 So2Sat LCZ42 데이터셋을 활용하여 심층 학습 기반의 다중 모달 원격 탐사 데이터 융합 전략과 그룹화 기법을 분석한 결과, 하이브리드 융합 (FM1) 과 밴드 그룹화 및 레이블 병합을 결합한 접근법이 국지 기후대 분류의 정확도, 특히 소수 클래스 예측 성능을 76.6% 로 가장 효과적으로 향상시킨다는 것을 입증했습니다.

Ancymol Thomas, Jaya Sreevalsan-Nair2026-03-06💻 cs

Structure-Guided Histopathology Synthesis via Dual-LoRA Diffusion

이 논문은 국소 구조 복원과 전역 구조 합성을 단일 모델에서 통합적으로 수행하기 위해 다중 클래스 핵 중심점을 공간적 사전 지식으로 활용하고 두 가지 작업별 LoRA 어댑터를 공유 백본에 적용한 '듀얼-LoRA 제어 확산 (Dual-LoRA Controllable Diffusion)' 프레임워크를 제안하며, 이를 통해 기존 방법 대비 조직의 구조적 충실도와 현실성을 크게 향상시켰음을 보여줍니다.

Xuan Xu, Prateek Prasanna2026-03-06💻 cs

Mask-aware inference with State-Space Models

이 논문은 State-Space 모델인 Mamba 아키텍처가 무작위 형태의 결손 데이터를 처리할 수 있도록 '부분 합성 (Partial Convolutions)'의 원리를 도입한 새로운 구성 요소인 '부분 비전 마바 (Partial Vision Mamba, PVM)'를 제안하고, 이를 통해 깊이 완성, 이미지 인페인팅, 결손 데이터 분류 등 다양한 작업에서 효과성을 입증합니다.

Ignasi Mas, Ramon Morros, Javier-Ruiz Hidalgo + 1 more2026-03-06💻 cs

PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing

이 논문은 단일 정답과 부정적 샘플 부족 등 기존 벤치마크의 한계를 극복하기 위해 다중 정답, 명시적 하드 네거티브, 다양한 문장 재구성 및 다중 이미지 지원을 포함한 포괄적인 CIR 평가 벤치마크 'PinPoint'를 제안하고, 이를 통해 기존 모델의 한계를 분석하며 오프더셸 MLLM 기반의 훈련 없는 재순위화 방법을 제시합니다.

Rohan Mahadev, Joyce Yuan, Patrick Poirson + 3 more2026-03-06💻 cs

SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D

본 논문은 명시적인 3D 재구성이 필요 없이 다중 모달 대형 언어 모델과 검색 증강 생성 (RAG) 을 활용하여 3D 씬 그래프를 생성하는 훈련 없는 프레임워크인 SGR3 모델을 제안하며, 이를 통해 기존 GNN 기반 모델과 경쟁력 있는 성능을 달성함을 입증합니다.

Zirui Wang, Ruiping Liu, Yufan Chen + 7 more2026-03-06💻 cs

Spinverse: Differentiable Physics for Permeability-Aware Microstructure Reconstruction from Diffusion MRI

이 논문은 확산 MRI 신호를 완전히 미분 가능한 Bloch-Torrey 시뮬레이터를 통해 역산하여, 고정된 메쉬 연결성 내에서 학습 가능한 면 투과도 매개변수를 최적화함으로써 세포막 투과성을 고려한 미세구조 인터페이스를 명시적으로 재구성하는 'Spinverse' 방법을 제안합니다.

Prathamesh Pradeep Khole, Mario M. Brenes, Zahra Kais Petiwala + 5 more2026-03-06💻 cs

Using Vision + Language Models to Predict Item Difficulty

이 논문은 GPT-4.1-nano 를 활용하여 시각화 리터러시 테스트 문항의 난이도를 예측한 결과, 텍스트와 이미지를 모두 활용한 멀티모달 접근법이 단일 모달 방식보다 가장 낮은 오차로 우수한 성능을 보임을 입증했습니다.

Samin Khan2026-03-06💻 cs

sFRC for assessing hallucinations in medical image restoration

이 논문은 의료 영상 복원 시 딥러닝 모델이 생성할 수 있는 환각 (hallucination) 을 탐지하기 위해 작은 패치 단위의 푸리에 링 상관관계 (FRC) 를 스캔하는 sFRC 기법을 제안하고, 이를 다양한 의료 영상 복원 문제에서 효과적으로 검증합니다.

Prabhat Kc, Rongping Zeng, Nirmal Soni + 1 more2026-03-06🔬 physics

Decoding the Pulse of Reasoning VLMs in Multi-Image Understanding Tasks

이 논문은 추론형 비전 - 언어 모델이 다중 이미지 이해 작업에서 발생하는 산만하고 편향된 어텐션 패턴을 해결하기 위해, 추론 과정을 계획 및 집중 단계로 구조화하고 어텐션 게이트를 적용하는 훈련 없는 방법인 'PulseFocus'를 제안하여 주요 벤치마크에서 성능을 향상시켰음을 보여줍니다.

Chenjun Li2026-03-06💻 cs

A Benchmark Study of Neural Network Compression Methods for Hyperspectral Image Classification

본 논문은 가변성 공간 이미지 분류를 위한 심층 신경망의 경량화 기법 (가지치기, 양자화, 지식 증류) 을 체계적으로 평가하여, 모델 크기와 계산 비용을 크게 줄이면서도 분류 성능을 유지할 수 있음을 입증했습니다.

Sai Shi2026-03-06💻 cs

Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

이 논문은 멀티모달 대규모 언어 모델 (MLLM) 이 제로샷 설정에서 비디오 이상 탐지 시 높은 정밀도를 보이지만 재현율 (recall) 이 급격히 저하되는 보수적 편향을 가지며, 클래스별 지시어를 통해 성능을 개선할 수 있으나 여전히 실용적 한계가 있음을 규명합니다.

Shanle Yao, Armin Danesh Pazho, Narges Rashvand + 1 more2026-03-06💻 cs

← 이전 다음 →