Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

이 논문은 단일 모달리티로 해결 가능한 단축형 질문의 문제를 해결하고, 이미지·텍스트·교차모달 성분을 분리하여 평가하는 다차원 항목반응이론 프레임워크 (M3IRT) 를 제안함으로써 다중모달 대형 언어 모델의 교차모달 추론 능력을 보다 신뢰성 있게 측정하고 벤치마크의 효율성을 높이는 방법을 제시합니다.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL

ITLC at SemEval-2026 Task 11: Normalization and Deterministic Parsing for Formal Reasoning in LLMs

이 논문은 다국어 추론에서 발생하는 콘텐츠 편향을 줄이기 위해 삼단논법을 표준 논리 표현으로 변환하고 결정론적 파싱을 적용하는 새로운 방법을 제안하며, SemEval-2026 태스크 11 에서 모든 하위 작업 상위 5 위를 기록함과 동시에 복잡한 미세 조정이나 활성화 수준 개입 없이도 경쟁력 있는 대안을 제시합니다.

Wicaksono Leksono Muhamad, Joanito Agili Lopo, Tack Hwa Wong + 2 more2026-03-04💬 cs.CL

HateMirage: An Explainable Multi-Dimensional Dataset for Decoding Faux Hate and Subtle Online Abuse

이 논문은 허위 정보와 조작된 서술에서 비롯된 미묘한 혐오 표현을 탐지하고 설명하기 위해, 사실 확인 소스를 기반으로 구축된 4,530 개의 댓글로 구성된 다차원적 해석 가능 데이터셋 'HateMirage'를 제안하고, 이를 통해 기존 모델의 한계를 극복하고 책임 있는 AI 연구를 위한 새로운 기준을 제시합니다.

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya + 1 more2026-03-04💬 cs.CL

Graph-GRPO: Stabilizing Multi-Agent Topology Learning via Group Relative Policy Optimization

이 논문은 단일 샘플의 절대적 보상 기반 강화학습이 가진 높은 분산과 신용 할당 문제를 해결하기 위해, 각 쿼리에 대해 다양한 통신 그래프 군집을 샘플링하여 상대적 성능을 기반으로 이득을 계산하는 'Graph-GRPO' 프레임워크를 제안함으로써 LLM 기반 다중 에이전트 시스템의 토폴로지 학습 안정성과 효율성을 획기적으로 개선합니다.

Yueyang Cang, Xiaoteng Zhang, Erlu Zhao + 7 more2026-03-04💬 cs.CL

From Solver to Tutor: Evaluating the Pedagogical Intelligence of LLMs with KMP-Bench

이 논문은 LLM 의 수학적 튜터링 능력을 종합적으로 평가하기 위해 KMP-Bench 벤치마크와 대규모 대화 데이터셋 KMP-Pile 을 제안하며, 현재 최첨단 모델이 검증 가능한 문제 해결에는 탁월하지만 교훈적 원리의 정교한 적용에는 한계가 있음을 드러내고 KMP-Pile 로 미세 조정 시 성능이 크게 향상됨을 보여줍니다.

Weikang Shi, Houxing Ren, Junting Pan + 8 more2026-03-04💬 cs.CL

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets

이 논문은 대규모 비즈니스 문서 정보 추출 벤치마크와 자동화된 계층적 오류 분석을 통해 강력한 MLLM 이 OCR 없이도 이미지 입력만으로 전통적인 OCR 기반 접근법과 유사한 성능을 달성할 수 있음을 입증하고, 스키마 및 지시문 설계의 중요성을 강조합니다.

Jiyuan Shen, Peiyue Yuan, Atin Ghosh + 2 more2026-03-04💬 cs.CL

The Distribution of Phoneme Frequencies across the World's Languages: Macroscopic and Microscopic Information-Theoretic Models

이 논문은 전 세계 언어의 음소 빈도 분포가 거시적으로는 대칭적 디리클레 분포의 순서 통계를 따르고 미시적으로는 발음, 음운론적, 어휘적 제약이 포함된 최대 엔트로피 모델로 설명될 수 있음을 보여줌으로써 음소 빈도 구조에 대한 통합된 정보이론적 설명을 제시합니다.

Fermín Moscoso del Prado Martín, Suchir Salhan2026-03-04💬 cs.CL

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

이 논문은 대규모 시각 - 언어 모델에서 노드와 구조적 정보는 시각 인코더 단계에서 선형적으로 표현되지만, 엣지 정보는 언어 모델의 토큰 단계까지 지연되어 표현된다는 사실을 규명함으로써, 관계 이해의 어려움이 엣지 정보의 지연된 표현 기제에서 비롯됨을 시사합니다.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

이 논문은 긴 문맥 모델링 시 발생하는 계산 비용과 패딩으로 인한 상태 오염 문제를 해결하기 위해, 전역 의존성 모델링을 위한 트랜스포머 레이어와 선형 시간 상태 업데이트를 위한 마밤 (Mamba) 레이어를 교차 배치하고 패딩 안전 마스킹 기법을 도입한 하이브리드 인코더 'MaBERT'를 제안합니다.

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

이 논문은 대규모 언어 모델이 텍스트 설명을 고품질의 TikZ 과학 도표로 변환하는 능력을 향상시키기 위해, DaTikZ-V4 라는 대규모 고품질 데이터셋을 구축하고 역그래픽 기반 이미지 인코더를 활용한 강화 학습을 도입한 'TikZilla' 모델을 제안하며, 이를 통해 GPT-4o 를 능가하고 GPT-5 와 대등한 성능을 달성함을 보여줍니다.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL