Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

이 논문은 대규모 시각 - 언어 모델에서 노드와 구조적 정보는 시각 인코더 단계에서 선형적으로 표현되지만, 엣지 정보는 언어 모델의 토큰 단계까지 지연되어 표현된다는 사실을 규명함으로써, 관계 이해의 어려움이 엣지 정보의 지연된 표현 기제에서 비롯됨을 시사합니다.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

이 논문은 광학적 잔차, 의미론적 사전 지식, 기하학적 사전 지식을 융합한 다중 모달 우선순위 기반 중요도 샘플링을 통해 희소 뷰 조건에서 3D 가우스 스플래팅의 과적합을 완화하고 DTU 벤치마크에서 SOTA 성능을 달성하는 계층적 3D 가우스 표현 프레임워크를 제안합니다.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark 는 기존 인-제네레이션 워터마킹의 비블라인드 추출 한계와 시간적 교란에 대한 취약점을 해결하기 위해, 전역 프레임별 의사난수 코딩 키를 활용한 블라인드 추출과 3D VAE 에 최적화된 모듈을 통해 확장성과 강인성을 동시에 확보한 비디오 확산 모델용 워터마킹 프레임워크입니다.

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

이 논문은 얼굴 위조 탐지 (FFD) 시 프라이버시 보호와 탐지 정확도 간의 상충 관계를 해결하기 위해, 은닉된 얼굴 이미지를 자연스러운 커버 이미지에 숨겨 탐지하는 'StegaFFD' 프레임워크를 제안하며, 저주파 인식 분해 및 공간 - 주파수 차분 어텐션 등을 통해 커버 이미지의 간섭을 억제하고 미세한 위조 흔적을 효과적으로 포착하는 방법을 제시합니다.

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

이 논문은 14,049 건의 신장 생검 표본에서 추출된 100 만 개 이상의 사구체를 기반으로 학습된 엔티티 중심 기초 모델 'GloPath'를 제안하여, 다양한 병변 평가 과제에서 기존 최첨단 기법을 압도하는 성능을 입증하고 사구체 형태학적 특성과 임상 지표 간의 통계적 연관성을 규명함으로써 신장 병리학 분야의 임상 적용 가능한 AI 의 발전에 기여함을 보여줍니다.

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

이 논문은 클래스 불균형이 심한 준지도 학습 문제를 해결하기 위해 라벨 비율 학습 (LLP) 의 비율 손실 (Proportion Loss) 을 정규화 항으로 도입하여 모델 예측을 전역 클래스 분포와 정렬시키는 경량 프레임워크를 제안하고, 이를 FixMatch 와 ReMixMatch 에 적용하여 장기 꼬리 분포 환경에서 기존 방법보다 우수한 성능을 입증했습니다.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG

Semi-Supervised Few-Shot Adaptation of Vision-Language Models

이 논문은 의료 영상 분야에서 소량의 라벨 데이터와 무라벨 데이터를 활용하여 텍스트 기반 의사레이블을 전파하는 효율적인 준지도 학습 솔버를 제안함으로써, 저샷 환경에서 비전문가 주석 비용을 50% 이상 절감하고 클래스 불균형 문제를 해결하는 비전 - 언어 모델 적응 방법을 제시합니다.

Julio Silva-Rodríguez, Ender Konukoglu2026-03-04💻 cs