Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

이 논문은 문서 이해를 위한 비전 - 언어 모델의 계산 부하를 줄이기 위해 비텍스트 영역을 제거하고 텍스트 영역의 공간적 일관성을 강화하는 경량 토큰 가지치기 프레임워크를 제안하고, 이를 통해 계산 비용을 크게 절감하면서도 정확도를 유지함을 실험을 통해 입증했습니다.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

QDFlow: A Python package for physics simulations of quantum dot devices

QDFlow 는 실험 데이터의 한계를 극복하고 머신러닝 모델 개발을 지원하기 위해, 자기 일관성 토머스 - 페르미 솔버와 동적 커패시턴스 모델을 결합하여 현실적인 양자점 장치 물리 시뮬레이션 데이터와 정답 레이블을 생성하는 오픈소스 파이썬 패키지입니다.

Donovan L. Buterakos, Sandesh S. Kalantre, Joshua Ziegler + 2 more2026-03-05⚛️ quant-ph

Segment-to-Act: Label-Noise-Robust Action-Prompted Video Segmentation Towards Embodied Intelligence

본 논문은 embodied intelligence 를 위한 액션 기반 비디오 객체 분할 작업에서 텍스트 프롬프트 및 마스크 주석의 라벨 노이즈 문제를 최초로 다루기 위해 ActiSeg-NL 벤치마크를 구축하고, 병렬 마스크 헤드 메커니즘 (PMHM) 을 포함한 다양한 노이즈 학습 전략의 성능을 분석하여 노이즈 유형별 실패 모드와 강건성 특성을 규명했습니다.

Wenxin Li, Kunyu Peng, Di Wen + 4 more2026-03-05🤖 cs.LG

Topological Alignment of Shared Vision-Language Embedding Space

이 논문은 다국어 멀티모달 데이터의 부족으로 인한 편향을 해결하기 위해 지속적 호몰로지를 기반으로 위상적 정렬 손실 함수를 도입하여 공유 임베딩 공간의 전역 기하학적 구조를 보존하는 'ToMCLIP' 프레임워크를 제안하고, 이를 통해 다국어 표현의 구조적 일관성과 제로샷 성능을 향상시켰음을 보여줍니다.

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

A Geometry-Based View of Mahalanobis OOD Detection

이 논문은 Mahalanobis 기반 OOD 탐지 성능이 특징 공간의 기하학적 특성 (클래스 내 스펙트럼 구조 및 국소 내재 차원) 에 크게 의존함을 규명하고, 이를 기반으로 특징의 반지름을 조절하는 방사 스케일링 2\ell_2 정규화 기법을 제안하여 기존 방법보다 우수한 성능을 달성함을 보여줍니다.

Denis Janiak, Jakub Binkowski, Tomasz Kajdanowicz2026-03-05🤖 cs.LG

Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis

이 논문은 의료 영상 해석 가능한 진단을 위해 개념 주석 없이 클래스 수준의 사전 지식을 활용하여 개념 예측을 가능하게 하는 약지도 프레임워크인 'Prior-guided Concept Predictor(PCP)'를 제안하고, 이를 통해 제로샷 베이스라인 대비 개념 예측 성능을 크게 향상시키면서도 완전 지도 개념 병목 모델과 경쟁력 있는 분류 성능을 달성함을 보여줍니다.

Md Nahiduzzaman, Steven Korevaar, Alireza Bab-Hadiashar + 1 more2026-03-05💻 cs

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

이 논문은 극한 환경에서 RGB 와 이벤트 데이터의 이질성으로 인한 분할 성능 저하를 해결하기 위해, 양 모달리티의 에지 정보를 활용한 잠재적 재코딩과 불확실성 최적화를 통해 강인한 융합을 이루는 '에지 인식 의미적 조화 (ESC)' 프레임워크를 제안하고 있습니다.

Nan Bao, Yifan Zhao, Lin Zhu + 1 more2026-03-05💻 cs