cs.CV 편의 논문 | Gist.Science

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

이 논문은 단일 이미지와 비디오로부터 고충실도 3D 의류 재구성을 위해 2D UV 공간에서 학습된 생성 확산 모델과 Implicit Sewing Patterns 를 결합하고, 시공간 확산 기법과 테스트 시간 가이드를 통해 일관된 동적 재구성을 가능하게 하는 통합 프레임워크를 제안합니다.

Yingxuan You, Ren Li, Corentin Dumery + 3 more2026-03-02💻 cs

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

이 논문은 비전 - 언어 모델의 양자화에서 입력 토큰별 중요 채널 분포의 차이를 고려하여 공유 및 라우팅 전문가 (Mixture of Experts) 를 활용한 토큰 인지형 적응적 오차 보상 기법인 'Quant Experts'를 제안하고, 다양한 모델 규모에서 전체 정밀도 수준의 성능을 유지하며 정확도를 향상시킨다고 설명합니다.

Chenwei Jia, Baoting Li, Xuchong Zhang + 3 more2026-03-02🤖 cs.AI

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

이 논문은 비전-언어 모델이 생성한 방사선 보고서의 논리적 일관성을 보장하기 위해, 자유 텍스트를 구조화된 명제로 자동 형식화하고 SMT 솔버를 활용해 임상적 추론의 오류를 검증하는 신경기호적 검증 프레임워크를 제안합니다.

Vikash Singh, Debargha Ganguly, Haotian Yu + 5 more2026-03-02💬 cs.CL

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

이 논문은 RAG 시스템에서 복잡한 시각 문서 처리 시 발생하는 과도한 컨텍스트와 할루시네이션 문제를 해결하기 위해, 문서 레이아웃을 분석하여 필요한 영역만 동적으로 추출하는 새로운 패러다임인 AgenticOCR 을 제안합니다.

Zhengren Wang, Dongsheng Ma, Huaping Zhong + 4 more2026-03-02💬 cs.CL

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

이 논문은 재구성 품질에 기반한 적응형 가지치기 전략과 양음 밀도를 동시에 모델링하는 3D 차분 가우시안 원리를 도입하여, 3D 가우시안 스플래팅의 모델 크기를 최대 90% 줄이면서도 시각적 품질을 유지하거나 향상시키는 효율적인 방법을 제안합니다.

Haoran Wang, Guoxi Huang, Fan Zhang + 2 more2026-03-02💻 cs

← 이전 다음 →

cs.CV

Spatio-Temporal Garment Reconstruction Using Diffusion Mapping via Pattern Coordinates

Quant Experts: Token-aware Adaptive Error Reconstruction with Mixture of Experts for Large Vision-Language Models Quantization

Toward Guarantees for Clinical Reasoning in Vision Language Models via Formal Verification

AgenticOCR: Parsing Only What You Need for Efficient Retrieval-Augmented Generation

Prune Wisely, Reconstruct Sharply: Compact 3D Gaussian Splatting via Adaptive Pruning and Difference-of-Gaussian Primitives

Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

HumanOrbit: 3D Human Reconstruction as 360° Orbit Generation

RAViT: Resolution-Adaptive Vision Transformer

Manifold-Preserving Superpixel Hierarchies and Embeddings for the Exploration of High-Dimensional Images

A Mixed Diet Makes DINO An Omnivorous Vision Encoder

A multimodal slice discovery framework for systematic failure detection and explanation in medical image classification

Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume

SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

MuViT: Multi-Resolution Vision Transformers for Learning Across Scales in Microscopy

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Joint Geometric and Trajectory Consistency Learning for One-Step Real-World Super-Resolution

Histopathology Image Normalization via Latent Manifold Compaction

Hierarchical Action Learning for Weakly-Supervised Action Segmentation

Mode Seeking meets Mean Seeking for Fast Long Video Generation

BSDM: Background Suppression Diffusion Model for Hyperspectral Anomaly Detection