cs.CV 편의 논문 | Gist.Science

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

이 논문은 디지털 잉크를 고정된 10 개 어휘의 토큰으로 변환하는 'ScribeTokens'를 제안하여, 생성 및 인식 작업에서 기존 벡터 표현을 능가하는 성능을 달성하고 자기지도 학습을 통해 수렴 속도를 획기적으로 개선했다고 요약할 수 있습니다.

Douglass Wang2026-03-04💻 cs

Scale-invariant Gaussian derivative residual networks

이 논문은 다양한 이미지 스케일에서 일반화되는 것을 보장하는 증명 가능한 스케일 불변 가우시안 미분 잔차 네트워크 (GaussDerResNets) 를 제안하고, STL-10, Fashion-MNIST, CIFAR-10 데이터셋을 통한 실험을 통해 뛰어난 스케일 일반화 및 선택 성능을 입증했습니다.

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

이 논문은 대규모 시각 - 언어 모델에서 노드와 구조적 정보는 시각 인코더 단계에서 선형적으로 표현되지만, 엣지 정보는 언어 모델의 토큰 단계까지 지연되어 표현된다는 사실을 규명함으로써, 관계 이해의 어려움이 엣지 정보의 지연된 표현 기제에서 비롯됨을 시사합니다.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

이 논문은 광학적 잔차, 의미론적 사전 지식, 기하학적 사전 지식을 융합한 다중 모달 우선순위 기반 중요도 샘플링을 통해 희소 뷰 조건에서 3D 가우스 스플래팅의 과적합을 완화하고 DTU 벤치마크에서 SOTA 성능을 달성하는 계층적 3D 가우스 표현 프레임워크를 제안합니다.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark 는 기존 인-제네레이션 워터마킹의 비블라인드 추출 한계와 시간적 교란에 대한 취약점을 해결하기 위해, 전역 프레임별 의사난수 코딩 키를 활용한 블라인드 추출과 3D VAE 에 최적화된 모듈을 통해 확장성과 강인성을 동시에 확보한 비디오 확산 모델용 워터마킹 프레임워크입니다.

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

이 논문은 비디오 생성 품질을 유지하면서 엣지 디바이스 배포를 가능하게 하기 위해, 블록별 최적의 양자화 형식을 선택하고 활성화 분해 및 의미 인식 할당 기법을 도입한 'SemanticDialect'라는 새로운 혼합 형식 양자화 방법을 제안합니다.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

이 논문은 얼굴 위조 탐지 (FFD) 시 프라이버시 보호와 탐지 정확도 간의 상충 관계를 해결하기 위해, 은닉된 얼굴 이미지를 자연스러운 커버 이미지에 숨겨 탐지하는 'StegaFFD' 프레임워크를 제안하며, 저주파 인식 분해 및 공간 - 주파수 차분 어텐션 등을 통해 커버 이미지의 간섭을 억제하고 미세한 위조 흔적을 효과적으로 포착하는 방법을 제시합니다.

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

이 논문은 베트남의 문화적·공간적 랜드마크를 인식하고 멀티모달 상호작용을 통해 복잡한 비디오 검색 쿼리를 처리하기 위해 설계된 모듈형 다중 에이전트 프레임워크인 LLandMark 를 제안합니다.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

이 논문은 단일 이미지로부터 고품질의 3D 인간을 재구성하기 위해 다중 뷰 확산 모델을 활용하고, 카메라 포즈 정렬 및 깊이 기반 얼굴 왜곡 완화 모듈을 도입하여 기하학적·외관적 일관성을 최적화하는 'MVD-HuGaS'를 제안합니다.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

3D-DRES: Detailed 3D Referring Expression Segmentation

이 논문은 자연어 표현 내의 풍부한 구성적 맥락 추론을 활용하기 위해 구 (phrase) 단위의 3D 인스턴스 매핑을 수행하는 새로운 작업인 '3D-DRES'와 이를 위한 데이터셋 'DetailRefer' 및 효율적인 베이스라인 모델 'DetailBase'를 제안하고, 이를 통해 기존 3D-RES 벤치마크에서도 뛰어난 성능을 입증했습니다.

Qi Chen, Changli Wu, Jiayi Ji + 2 more2026-03-04💻 cs

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

본 논문은 잔차 벡터 양자화 (RVQ) 와 경량 백본을 활용하여 저비트레이트 환경에서도 유연한 점진적 전송과 높은 효율성을 제공하면서도 기존 방법과 견줄 만한 압축 성능을 달성한 새로운 생성형 이미지 압축 프레임워크인 ProGIC 를 제안합니다.

Hao Cao, Chengbin Liang, Wenqi Guo + 2 more2026-03-04💻 cs

Harmonic Beltrami Signature Network: a Shape Prior Module in Deep Learning Framework

이 논문은 2D 형태의 기하학적 특성을 인코딩하는 조화 벨트라미 서명 (HBS) 을 효율적으로 추출하고 기존 분할 모델에 통합하여 성능을 향상시키는 새로운 딥러닝 아키텍처인 HBSN 을 제안합니다.

Chenran Lin, Lok Ming Lui2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

이 논문은 사전 지식 없이 사용자-객체 상호작용 비디오와 초기 3D 스캔 데이터를 활용하여 동적 - 정적 해리를 통해 관절형 객체의 부분 분해, 운동학 분석 및 고화질 3D 디지털 복제본을 생성하는 'Articulation in Motion (AiM)' 프레임워크를 제안합니다.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

HDINO: A Concise and Efficient Open-Vocabulary Detector

이 논문은 수동으로 정제된 데이터와 무거운 교차 모달 특징 추출 없이도, O2M 메커니즘과 DWCL 손실 함수를 활용한 2 단계 학습 전략으로 COCO 데이터셋에서 기존 최첨단 모델들을 능가하는 성능을 보이는 효율적인 오픈-어휘 객체 탐지기 HDINO 를 제안합니다.

Hao Zhang, Yiqun Wang, Qinran Lin + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

이 논문은 14,049 건의 신장 생검 표본에서 추출된 100 만 개 이상의 사구체를 기반으로 학습된 엔티티 중심 기초 모델 'GloPath'를 제안하여, 다양한 병변 평가 과제에서 기존 최첨단 기법을 압도하는 성능을 입증하고 사구체 형태학적 특성과 임상 지표 간의 통계적 연관성을 규명함으로써 신장 병리학 분야의 임상 적용 가능한 AI 의 발전에 기여함을 보여줍니다.

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

이 논문은 확산 모델의 저단계 샘플링 단계에서 발생하는 오차 누적을 해결하고 고품질 생성을 유지하면서 가속도를 획기적으로 개선하기 위해, 유리함수를 기반으로 한 '궤적 일관성 Padé 근사 (TC-Padé)' 프레임워크를 제안합니다.

Benlei Cui, Shaoxuan He, Bukun Huang + 8 more2026-03-04💻 cs

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

이 논문은 클래스 불균형이 심한 준지도 학습 문제를 해결하기 위해 라벨 비율 학습 (LLP) 의 비율 손실 (Proportion Loss) 을 정규화 항으로 도입하여 모델 예측을 전역 클래스 분포와 정렬시키는 경량 프레임워크를 제안하고, 이를 FixMatch 와 ReMixMatch 에 적용하여 장기 꼬리 분포 환경에서 기존 방법보다 우수한 성능을 입증했습니다.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG

Semi-Supervised Few-Shot Adaptation of Vision-Language Models

이 논문은 의료 영상 분야에서 소량의 라벨 데이터와 무라벨 데이터를 활용하여 텍스트 기반 의사레이블을 전파하는 효율적인 준지도 학습 솔버를 제안함으로써, 저샷 환경에서 비전문가 주석 비용을 50% 이상 절감하고 클래스 불균형 문제를 해결하는 비전 - 언어 모델 적응 방법을 제시합니다.

Julio Silva-Rodríguez, Ender Konukoglu2026-03-04💻 cs

Improving Anomaly Detection with Foundation-Model Synthesis and Wavelet-Domain Attention

이 논문은 파인튜닝 없이 고품질 이상 데이터를 생성하는 FMAS 파이프라인과 이상 특징 추출을 강화하는 웨이블릿 도메인 어텐션 모듈 (WDAM) 을 제안하여, MVTec AD 와 VisA 데이터셋에서 기존 방법보다 뛰어난 이상 탐지 성능을 달성함을 보여줍니다.

Wensheng Wu, Zheming Lu, Ziqian Lu + 5 more2026-03-04💻 cs

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

이 논문은 Vision-Language Navigation(VLN) 의 한계를 극복하기 위해 VLM 백본에 위상 구조를 명시적으로 주입하여 공간적 추론 능력을 향상시킨 TagaVLM 을 제안하고, R2R 벤치마크에서 기존 최첨단 방법들을 능가하는 성능을 입증했습니다.

Jiaxing Liu, Zexi Zhang, Xiaoyan Li + 3 more2026-03-04💻 cs

← 이전 다음 →