RLAR: An Agentic Reward System for Multi-task Reinforcement Learning on Large Language Models

이 논문은 대규모 언어 모델의 다중 작업 강화 학습에서 정적 보상 모델의 한계를 극복하고, 인터넷에서 최적의 보상 모델을 동적으로 검색 및 합성하여 데이터 분포 변화에 맞춰 진화하는 에이전트 기반 보상 시스템 'RLAR'을 제안하고, 이를 통해 다양한 작업에서 뛰어난 일반화 성능과 성능 향상을 입증합니다.

Andrew Zhuoer Feng, Cunxiang Wang, Bosi Wen + 4 more2026-03-03💬 cs.CL

MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine

이 논문은 환자 프라이버시와 PHI 준수를 위한 온프레미스 배포가 가능한 오픈 가중치 20B 파라미터 비전 - 언어 모델인 MedGPT-oss 를 소개하며, 이는 복잡한 아키텍처 없이도 최적화된 3 단계 훈련 커리큘럼을 통해 더 큰 오픈 의료 모델보다 우수한 성능을 보임과 동시에 상용 GPU 환경에 적합함을 입증합니다.

Kai Zhang, Zhengqing Yuan, Cheng Peng + 10 more2026-03-03💬 cs.CL

Hybrid Neural-LLM Pipeline for Morphological Glossing in Endangered Language Documentation: A Case Study of Jungar Tuvan

이 논문은 저자원 언어인 준가르 투바어의 형태소 주석 생성 병목 현상을 해결하기 위해 신경망 시퀀스 라벨링과 대규모 언어 모델 (LLM) 후수정 기법을 결합한 하이브리드 파이프라인을 제안하고, 이를 통해 문서화 작업 부하를 크게 줄일 수 있음을 입증합니다.

Siyu Liang, Talant Mawkanuli, Gina-Anne Levow2026-03-03💬 cs.CL

S-VoCAL: A Dataset and Evaluation Framework for Inferring Speaking Voice Character Attributes in Literature

이 논문은 문학 작품 속 등장인물의 음성 속성을 추론하기 위한 최초의 데이터셋 및 평가 프레임워크인 S-VoCAL 을 제안하고, 이를 통해 RAG 파이프라인이 나이와 성별은 효과적으로 추론하지만 출신이나 신체 건강 상태와 같은 속성에서는 어려움을 겪음을 입증했습니다.

Abigail Berthe-Pardo, Gaspard Michel, Elena V. Epure + 1 more2026-03-03💬 cs.CL

How RL Unlocks the Aha Moment in Geometric Interleaved Reasoning

이 논문은 기하학적 추론에서 단순한 지도 미세조정 (SFT) 이 시각적 생성과 논리적 추론 간의 인과적 의존성을 학습하지 못해 성능이 저하되는 문제를 지적하고, 강화학습 기반의 'Faire' 프레임워크를 통해 모델이 도면 생성과 추론 단계를 기능적으로 정렬하도록 함으로써 복잡한 기하학 문제 해결 능력을 획기적으로 향상시킨다는 점을 제시합니다.

Xiangxiang Zhang, Caijun Jia, Siyuan Li + 9 more2026-03-03💬 cs.CL