cs.CV 편의 논문 | Gist.Science

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

이 논문은 비전-언어 모델이 생성한 방사선 보고서의 논리적 일관성을 보장하기 위해, 자유 텍스트를 구조화된 명제로 자동 형식화하고 SMT 솔버를 활용해 임상적 추론의 오류를 검증하는 신경기호적 검증 프레임워크를 제안합니다.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

이 논문은 RAG 시스템에서 복잡한 시각 문서 처리 시 발생하는 과도한 컨텍스트와 할루시네이션 문제를 해결하기 위해, 문서 레이아웃을 분석하여 필요한 영역만 동적으로 추출하는 새로운 패러다임인 AgenticOCR 을 제안합니다.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

이 논문은 재구성 품질에 기반한 적응형 가지치기 전략과 양음 밀도를 동시에 모델링하는 3D 차분 가우시안 원리를 도입하여, 3D 가우시안 스플래팅의 모델 크기를 최대 90% 줄이면서도 시각적 품질을 유지하거나 향상시키는 효율적인 방법을 제안합니다.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

이 논문은 대규모 사전 학습 없이도 비디오에서 생성된 텍스트 정보를 시각적 특징과 결합한 다중 모달 최적 수송 기법 (TASOT) 을 통해 수술 로봇의 비지도 시간적 분할 성능을 획기적으로 향상시키는 방법을 제안합니다.

Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji + 4 more2026-03-02🤖 cs.AI

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

이 논문은 단일 입력 이미지로부터 기하학적 일관성을 유지하며 신원 정보를 보존하는 360 도 회전 영상을 생성하는 비디오 확산 모델 'HumanOrbit'을 제안하고, 이를 통해 기존 방법보다 완성도와 충실도가 높은 3D 텍스처 메시를 재구성하는 파이프라인을 소개합니다.

Keito Suzuki, Kunyao Chen, Lei Wang + 5 more2026-03-02💻 cs

RAViT: Resolution-Adaptive Vision Transformer

RAViT 는 다양한 해상도의 이미지를 처리하는 다중 분기 구조와 조기 종료 메커니즘을 도입하여 비전 트랜스포머의 계산 비용을 약 70% 로 줄이면서도 기존 모델과 동등한 정확도를 달성하는 새로운 이미지 분류 프레임워크입니다.

Martial Guidez, Stefan Duffner, Christophe Garcia2026-03-02🤖 cs.LG

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

이 논문은 고차원 이미지의 속성 매니폴드를 고려하여 픽셀의 공간적 배치와 속성 간 추상화를 일치시키는 초픽셀 계층 구조를 제안함으로써, 이미지 공간과 속성 공간 모두에서 일관된 고차원 이미지 탐색을 가능하게 합니다.

Alexander Vieth, Boudewijn Lelieveldt, Elmar Eisemann + 2 more2026-03-02💻 cs

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

이 논문은 DINOv2 와 같은 사전 학습된 비전 인코더의 모달리티 간 정렬 부족 문제를 해결하기 위해, 다양한 모달리티 간의 정렬과 교사 모델 증류를 결합한 '잡식성 비전 인코더 (Omnivorous Vision Encoder)'를 제안하여 모달리티에 구애받지 않는 일관된 특징 표현을 학습하는 방법을 제시합니다.

Rishabh Kabra, Maks Ovsjanikov, Drew A. Hudson + 5 more2026-03-02🤖 cs.AI

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

이 논문은 의료 이미지 분류 모델의 숨겨진 체계적 오류를 발견하고 설명하기 위해 단일 모달리티 기반의 한계를 극복하는 최초의 자동화된 멀티모달 슬라이스 발견 프레임워크를 제안하고, MIMIC-CXR-JPG 데이터셋을 통한 실험을 통해 그 유효성을 입증했습니다.

Yixuan Liu, Kanwal K. Bhatia, Ahmed E. Fetit2026-03-02🤖 cs.LG

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

이 논문은 외부 도구나 추가 학습 없이 MLLM 의 내부 모달리티 특징만을 활용하여 샘플 응답의 불일치 조정 시맨틱 볼륨을 계산함으로써 다양한 모달리티와 작업에서 기존 방법보다 우수한 불확실성 정량화 성능을 보이는 새로운 프레임워크인 UMPIRE 를 제안합니다.

Gregory Kang Ruey Lau, Hieu Dao, Nicole Kan Hui Lin + 1 more2026-03-02💬 cs.CL

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

이 논문은 확산 모델 추론 시 캐싱 오차를 예측하는 핵심 지표로 모델 출력의 민감도를 분석하여, 기존 휴리스틱 기반 방법의 한계를 극복하고 샘플별 동적으로 최적의 캐싱 시점을 선택하는 'SenCache' 프레임워크를 제안합니다.

Yasaman Haghighi, Alexandre Alahi2026-03-02🤖 cs.LG

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

이 논문은 현미경 이미지의 본질적인 다중 해상도 특성을 활용하기 위해 동일한 세계 좌표계에서 다양한 해상도의 관측치를 융합하는 새로운 트랜스포머 아키텍처인 MuViT 를 제안하고, 이를 통해 다양한 현미경 분석 작업에서 기존 모델보다 우수한 성능을 입증합니다.

Albert Dominguez Mantes, Gioele La Manno, Martin Weigert2026-03-02🤖 cs.LG

Enhancing Spatial Understanding in Image Generation via Reward Modeling

이 논문은 8 만 개 이상의 선호도 쌍으로 구성된 SpatialReward-Dataset 과 이를 기반으로 구축된 SpatialScore 보상 모델을 통해 텍스트-이미지 생성 모델의 공간 관계 이해 능력을 강화하고, 이를 온라인 강화 학습에 적용하여 복잡한 공간적 묘사 성능을 획기적으로 개선하는 방법을 제시합니다.

Zhenyu Tang, Chaoran Feng, Yufan Deng + 5 more2026-03-02💻 cs

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

이 논문은 전이 학습에서 발생하는 일관성 드리프트와 기하학적 분해 문제를 해결하기 위해 궤적 정렬 및 이중 참조 구조 보정 메커니즘을 도입한 GTASR 을 제안하여, 단일 단계로 고품질의 실세계 이미지 초해상도를 효율적으로 달성하는 방법을 제시합니다.

Chengyan Deng, Zhangquan Chen, Li Yu + 3 more2026-03-02💻 cs

Histopathology Image Normalization via Latent Manifold Compaction

이 논문은 염색 및 스캐너 기술적 변이로 인한 배치 효과를 해결하기 위해 단일 소스 데이터셋에서 학습된 잠재 매니폴드 압축을 통해 배치 불변 임베딩을 생성하는 비지도 표현 학습 프레임워크인 '잠재 매니폴드 압축 (LMC)'을 제안하며, 이를 통해 다양한 데이터셋 간 분류 및 검출 작업에서 기존 방법보다 우수한 일반화 성능을 입증했습니다.

Xiaolong Zhang, Jianwei Zhang, Selim Sevim + 3 more2026-03-02🤖 cs.LG

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

이 논문은 저수준 시각 특징과 고수준 행동 잠재 변수의 진화 속도 차이를 활용하여 계층적 인과 생성 과정을 모델링하고, 결정론적 과정과 희소 전이 제약을 통해 잠재 행동 변수의 식별성을 보장하는 약지도 행동 분할을 위한 계층적 행동 학습 (HAL) 모델을 제안하고 있습니다.

Junxian Huang, Ruichu Cai, Hao Zhu + 5 more2026-03-02💻 cs

Mode Seeking meets Mean Seeking for Fast Long Video Generation

이 논문은 '모드 탐색 (Mode Seeking)'과 '평균 탐색 (Mean Seeking)'을 결합한 새로운 학습 패러다임을 제안하여, 제한된 장시간 데이터를 통한 서사적 일관성 학습과 짧은 영상 교사 모델로부터의 국소적 사실성 계승을 동시에 달성함으로써 고품질의 분 단위 긴 영상을 빠르게 생성하는 방법을 제시합니다.

Shengqu Cai, Weili Nie, Chao Liu + 8 more2026-03-02🤖 cs.LG

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection

이 논문은 라벨이 없는 초분광 이미지에서 복잡한 배경을 효과적으로 억제하고 다양한 도메인에 일반화할 수 있도록 확산 모델을 기반으로 한 새로운 배경 억제 확산 모델 (BSDM) 을 제안하여 초분광 이상 탐지 성능을 향상시킵니다.

Jitao Ma, Weiying Xie, Yunsong Li + 1 more2026-02-27💻 cs

StableMaterials: Enhancing Diversity in Material Generation via Semi-Supervised Learning

이 논문은 반지도 학습과 잠재 확산 모델을 결합하여 주석 데이터에 대한 의존성을 줄이고 생성의 다양성을 향상시키며, 고해상도 및 빠른 생성을 가능하게 하는 새로운 PBR(물리 기반 렌더링) 재료 생성 방법인 StableMaterials 를 제안합니다.

Giuseppe Vecchio2026-02-27💻 cs

SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation

이 논문은 3D 인스턴스 분할을 위해 시맨틱 정보 기반의 혼합 쿼리 초기화 기법과 기하학적 특성을 강화한 인터리빙 트랜스포머 디코더를 제안하여 대규모 3D 장면에서도 정확도와 효율성을 동시에 달성한 SGIFormer 모델을 소개합니다.

Lei Yao, Yi Wang, Moyun Liu + 1 more2026-02-27💻 cs

← 이전 다음 →