VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

이 논문은 기존 벤치마크가 놓치고 있는 미세한 시각적 차이 식별 능력을 평가하기 위해 산업, 의료, 항공 등 다양한 도메인과 10 가지 차이 유형을 포괄하는 'VLM-SubtleBench'를 제안하고, 이를 통해 현재 VLM 들이 인간 수준의 비교 추론에 도달하기까지 여전히 큰 격차가 있음을 규명합니다.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

Visualizing Coalition Formation: From Hedonic Games to Image Segmentation

이 논문은 헤도닉 게임의 연합 형성 과정을 시각적으로 진단하기 위해 이미지 분할을 테스트베드로 활용하며, 입자화 매개변수가 균형의 분열과 경계 구조에 미치는 영향을 정량화하고 메커니즘 설계가 다중 에이전트 시스템의 균형 구조에 어떻게 영향을 주는지 규명합니다.

Pedro Henrique de Paula França, Lucas Lopes Felipe, Daniel Sadoc Menasché2026-03-10💻 cs

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

이 논문은 공간 전사체학 데이터를 지도 신호로 활용하여 병리학 기초 모델의 형태학적 표현에 분자 상태를 효과적으로 통합하는 'MINT' 프레임워크를 제안하고, 이를 통해 유전자 발현 예측 및 일반 병리학 작업에서 기존 모델보다 우수한 성능을 입증했습니다.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang2026-03-10💻 cs

Beyond Heuristic Prompting: A Concept-Guided Bayesian Framework for Zero-Shot Image Recognition

이 논문은 비관점적 프롬프트 엔지니어링의 한계를 극복하기 위해 클래스별 개념을 잠재 변수로 활용하고 베이지안 프레임워크를 도입하여, LLM 기반의 개념 생성과 다양성 확보, 그리고 이상치 개념을 억제하는 적응형 소프트-트림 기법을 통해 제로샷 이미지 인식 성능을 획기적으로 향상시키는 새로운 접근법을 제시합니다.

Hui Liu, Kecheng Chen, Jialiang Wang, Xianming Liu, Wenya Wang, Haoliang Li2026-03-10💻 cs

Geometric Transformation-Embedded Mamba for Learned Video Compression

이 논문은 명시적인 운동 추정 없이 비선형 변환과 엔트로피 코딩을 기반으로 하며, 기하학적 변환이 내장된 캐스케이드 Mamba 모듈과 국소성 정제 피드포워드 네트워크를 활용하여 저비트레이트 환경에서 기존 방법보다 우수한 화질과 시간적 일관성을 달성하는 새로운 비디오 압축 프레임워크를 제안합니다.

Hao Wei, Yanhui Zhou, Chenyang Ge2026-03-10💻 cs

Enhancing Unregistered Hyperspectral Image Super-Resolution via Unmixing-based Abundance Fusion Learning

이 논문은 정합되지 않은 고해상도 참조 이미지를 활용하여 저해상도 초분광 이미지의 해상도를 향상시키기 위해 분해 기반의 풍부도 융합 학습 프레임워크를 제안하며, 이를 통해 공간 - 스펙트럼 정보를 분리하고 변형 가능한 집계 모듈 및 공간 - 채널 변조 융합 모듈을 적용해 최첨단 성능을 달성함을 보여줍니다.

Yingkai Zhang, Tao Zhang, Jing Nie, Ying Fu2026-03-10💻 cs

RLPR: Radar-to-LiDAR Place Recognition via Two-Stage Asymmetric Cross-Modal Alignment for Autonomous Driving

이 논문은 다양한 레이더 유형과 기상 조건에서 LiDAR 매핑을 기반으로 한 자율 주행 장소를 인식하기 위해, 센서별 신호 특성을 추상화하는 듀얼 스트림 네트워크와 비대칭 교차 모드 정렬 전략을 결합한 RLPR 프레임워크를 제안하고, 이를 통해 최첨단 인식 정확도와 제로샷 일반화 능력을 입증했습니다.

Zhangshuo Qi, Jingyi Xu, Luqi Cheng, Shichen Wen, Guangming Xiong2026-03-10💻 cs

IMSE: Intrinsic Mixture of Spectral Experts Fine-tuning for Test-Time Adaptation

이 논문은 비전 트랜스포머의 고유한 스펙트럼 전문가를 활용하고 엔트로피 최소화 한계를 극복하기 위한 다양성 최대화 손실 함수를 도입하여, 최소한의 파라미터 업데이트로 테스트 시간 적응 (TTA) 및 연속적 테스트 시간 적응 (CTTA) 성능을 획기적으로 개선한 'IMSE' 방법을 제안합니다.

Sunghyun Baek (Korea Advanced Institute of Science and Technology), Jaemyung Yu (Korea Advanced Institute of Science and Technology), Seunghee Koh (Korea Advanced Institute of Science and Technology), Minsu Kim (LG Energy Solution), Hyeonseong Jeon (LG Energy Solution), Junmo Kim (Korea Advanced Institute of Science and Technology)2026-03-10💻 cs

A Hybrid Vision Transformer Approach for Mathematical Expression Recognition

이 논문은 2D 위치 인코딩이 적용된 하이브리드 비전 트랜스포머 인코더와 커버리지 어텐션 디코더를 활용하여 수식 인식의 복잡성을 해결하고, IM2LATEX-100K 데이터셋에서 BLEU 점수 89.94 를 기록해 기존 최첨단 기법을 능가하는 성능을 입증했습니다.

Anh Duy Le, Van Linh Pham, Vinh Loi Ly, Nam Quan Nguyen, Huu Thang Nguyen, Tuan Anh Tran2026-03-10💻 cs

Text to Automata Diagrams: Comparing TikZ Code Generation with Direct Image Synthesis

이 논문은 학생이 그린 자동화 다이어그램을 입력받아 비전 - 언어 모델로 설명을 생성하고 인간이 이를 수정한 후 대규모 언어 모델을 통해 TikZ 코드로 변환하는 과정을 평가하여, 인간 교정이 생성된 설명의 정확도와 최종 다이어그램 품질을 크게 향상시킨다는 사실을 밝혔습니다.

Ethan Young, Zichun Wang, Aiden Taylor, Chance Jewell, Julian Myers, Satya Sri Rajiteswari Nimmagadda, Anthony White, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs