MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

이 논문은 이슬람 상속법의 복잡한 추론 과정을 평가하기 위해 12,500 개의 아랍어 사례로 구성된 대규모 데이터셋 'MAWARITH'와 단계별 추론을 점수화하는 새로운 평가 지표 'MIR-E'를 제안하고, 이를 통해 다양한 대형 언어 모델의 성능을 분석했습니다.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

이 논문은 디지털 소외를 겪고 있는 네팔어 (뉴아리) 를 위한 최초의 말뭉치 'Nwāchā Munā'를 구축하고, 대규모 다국어 모델과 유사한 성능을 내는 지리·언어적으로 인접한 네팔어 기반의 전이 학습이 초저자원 자동음성인식 분야에서 효율적인 대안이 될 수 있음을 입증했습니다.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

이 논문은 제 3 자 API 의 변경으로 인한 기존 코드 유지보수 문제를 해결하기 위해, 정적 및 동적 API 그래프를 구축하여 진화 경로를 검색하고 이를 기반으로 코드를 생성하는 지식 그래프 기반의 진화적 코드 생성 프레임워크 'KCoEvo'를 제안합니다.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin Qi2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

이 논문은 메모리, 통신, 연산의 통합 최적화 및 다양한 병렬화 기법을 통해 MoE 모델의 확장성 문제를 해결하고, NVIDIA GB200/GB300 클러스터에서 높은 성능을 달성한 Megatron Core 기반의 실용적인 오픈소스 솔루션을 제시합니다.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

이 논문은 다양한 표현 방식과 CoT 기법을 적용하여 Llama-3 시리즈 및 ChatGPT 등 대규모 언어 모델의 이산 최적화 문제 해결 능력을 평가하고, 모델 성능의 불안정성과 데이터 증강의 효과를 분석하여 자동화 해결을 위한 실용적 지침과 벤치마크를 제시합니다.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

이 논문은 비전 - 언어 모델의 공간 지능 격차를 해소하기 위해 공학적 인지에 기반한 '시뮬레이션 및 추론' 메커니즘을 도입하여 정사각도 (Orthographic Views) 를 기반으로 한 3 차원 공간 추론 프레임워크인 3ViewSense 를 제안하고, 이를 통해 가림 현상이 심한 장면에서의 객체 계수 및 일관된 공간 추론 성능을 크게 향상시켰음을 보여줍니다.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

이 논문은 PCA 화이트닝 기법을 적용하여 임베딩 공간에서 클러스터 일관성이 환각 유형을 구분하는 기하학적 분리자임을 규명하고, GPT-2-small 모델에서 Type 1 과 Type 2 환각의 구분이 측정 오류가 아닌 모델 용량의 한계임을 증명하며, 마이크로 시그널 영역에서의 프롬프트 세트 민감성을 확인했습니다.

Matic Korun2026-03-10💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

이 논문은 하이브리드 RoBERTa 인코더와 LLM 을 예측 수준에서 앙상블 학습하여 SemEval-2026 태스크 3 의 다차원 어휘 기반 감정 회귀 과제에서 RMSE 를 크게 줄이고 상관관계 점수를 향상시킨 QuadAI 시스템을 제시합니다.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

이 논문은 현대 코딩 모델의 학습 병목 현상을 해결하기 위해 조건부 트렁케이션 마스킹, 다양성 기반 온도 선택, KL 손실 제거 등 세 가지 혁신을 도입한 MicroCoder-GRPO 알고리즘과 더 까다로운 학습 데이터셋, 그리고 정밀한 평가 프레임워크를 제안하여 강력한 베이스라인 대비 LiveCodeBench v6 에서 최대 17.6% 의 상대적 성능 향상을 달성했다고 요약할 수 있습니다.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

이 논문은 자동 난이도 필터링을 포함한 4 단계 데이터 처리 프레임워크를 통해 최신의 고난이도 프로그래밍 문제만 선별한 'MicroCoder' 데이터셋을 구축하고, 이를 통해 기존 데이터셋 대비 훨씬 큰 성능 향상을 이끌어낸 Reinforcement Learning 기반 코딩 모델 학습 방법을 제안합니다.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

이 논문은 네팔 문화적 맥락에서 7 개의 최신 대규모 언어 모델을 대상으로 '이중 지표 편향 평가 (DMBA)' 프레임워크를 적용하여 명시적 동의 편향과 암시적 생성 편향을 분석한 결과, 두 편향 지표 간 상관관계가 약하며 생성 편향이 온도 설정에 따라 비선형적으로 변화함을 규명했습니다.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

이 논문은 퀘벡 보험 분야의 '권고 격차'를 해결하기 위해 AEPC-QA 벤치마크를 구축하고 51 개의 대규모 언어 모델을 평가한 결과, 추론 시간 추론의 우위, 검색 증강 생성 (RAG) 의 양면적 효과, 그리고 일반 대형 모델이 도메인 특화 모델보다 우수한 '전문화 역설' 등 세 가지 핵심 통찰을 도출했습니다.

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

이 논문은 입력, 구조, 상태, 출력이라는 네 가지 제어 표면을 통해 다양한 조향 방법을 통합하고 평가할 수 있는 오픈소스 파이썬 라이브러리인 'AI Steerability 360' 툴킷을 소개합니다.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

이 논문은 라벨이 없는 미지의 데이터셋에서도 Text2SQL 모델의 정확도를 참조 레이블 없이 추정할 수 있는 새로운 평가 프레임워크인 FusionSQL 을 제안하고, 이를 통해 배포 전 검증 및 지속적인 품질 모니터링이 가능함을 실험을 통해 입증합니다.

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

이 논문은 강화학습만으로는 심층 탐사가 부족할 수 있는 연구 에이전트의 한계를 극복하기 위해, 합성된 탐색 궤적을 활용한 냉각 시작 감독 미세 조정 (SFT) 프레임워크인 SynPlanResearch-R1 을 제안하여 최신 기법 대비 성능을 크게 향상시켰다고 요약할 수 있습니다.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL