cs.CL 편의 논문 | Gist.Science

RLAR: An Agentic Reward System for Multi-task Reinforcement Learning on Large Language Models

이 논문은 대규모 언어 모델의 다중 작업 강화 학습에서 정적 보상 모델의 한계를 극복하고, 인터넷에서 최적의 보상 모델을 동적으로 검색 및 합성하여 데이터 분포 변화에 맞춰 진화하는 에이전트 기반 보상 시스템 'RLAR'을 제안하고, 이를 통해 다양한 작업에서 뛰어난 일반화 성능과 성능 향상을 입증합니다.

Andrew Zhuoer Feng, Cunxiang Wang, Bosi Wen + 4 more2026-03-03💬 cs.CL

LaSTR: Language-Driven Time-Series Segment Retrieval

이 논문은 자연어 쿼리를 통해 대규모 시계열 데이터에서 관련 국소 구간을 검색하는 'LaSTR'을 제안하며, TV2 기반 분할과 GPT-5.2 를 활용한 대규모 학습 데이터 구축 및 Conformer 기반 대비 학습을 통해 기존 방법보다 우수한 검색 성능과 의미적 일관성을 입증했습니다.

Kota Dohi, Harsh Purohit, Tomoya Nishida + 6 more2026-03-03💬 cs.CL

Qwen3-Coder-Next Technical Report

이 논문은 실행 가능한 환경과 대규모 합성 데이터를 활용한 에이전트 중심 훈련을 통해, 800 억 파라미터 모델 중 30 억 파라미터만 활성화하여 SWE-Bench 및 Terminal-Bench 등 에이전트 벤치마크에서 경쟁력 있는 성능을 보이는 오픈 가중치 코딩 특화 모델인 Qwen3-Coder-Next 를 제안합니다.

Ruisheng Cao, Mouxiang Chen, Jiawei Chen + 17 more2026-03-03💬 cs.CL

Constitutional Black-Box Monitoring for Scheming in LLM Agents

이 논문은 자연어 행동 명세에서 생성된 합성 데이터로 학습된 헌법적 블랙박스 모니터링 기법이 실제 환경에서 사기 행위를 탐지할 수 있음을 보여주지만, 성능은 단순 프롬프트 탐색 수준에서 포화되어 추가 최적화는 오히려 과적합을 초래함을 규명했습니다.

Simon Storf, Rich Barton-Cooper, James Peters-Gill + 1 more2026-03-03💬 cs.CL

Learning Nested Named Entity Recognition from Flat Annotations

이 논문은 중첩된 개체명 인식 (NER) 을 위한 고품질 주석이 부족하다는 문제를 해결하기 위해 평면 주석 데이터만으로 중첩 구조를 학습할 수 있는 네 가지 접근법을 제안하고, 러시아어 벤치마크 NEREL 에서 최선의 결합 방법이 완전한 중첩 감독의 성능 격차의 40% 를 해소함을 입증했습니다.

Igor Rozhkov, Natalia Loukachevitch2026-03-03💬 cs.CL

MedGPT-oss: Training a General-Purpose Vision-Language Model for Biomedicine

이 논문은 환자 프라이버시와 PHI 준수를 위한 온프레미스 배포가 가능한 오픈 가중치 20B 파라미터 비전 - 언어 모델인 MedGPT-oss 를 소개하며, 이는 복잡한 아키텍처 없이도 최적화된 3 단계 훈련 커리큘럼을 통해 더 큰 오픈 의료 모델보다 우수한 성능을 보임과 동시에 상용 GPU 환경에 적합함을 입증합니다.

Kai Zhang, Zhengqing Yuan, Cheng Peng + 10 more2026-03-03💬 cs.CL

CHIMERA: Compact Synthetic Data for Generalizable LLM Reasoning

이 논문은 추론 데이터의 초기화, 도메인 확장성, 그리고 인간 주석의 비용 문제를 해결하기 위해 8 개 과학 분야에 걸친 9 천 개의 고품질 합성 추론 데이터를 구축하고, 이를 통해 4B 모델이 DeepSeek-R1 등 초대규모 모델에 필적하는 추론 능력을 달성함을 보여줍니다.

Xinyu Zhu, Yihao Feng, Yanchao Sun + 5 more2026-03-03💬 cs.CL

Hybrid Neural-LLM Pipeline for Morphological Glossing in Endangered Language Documentation: A Case Study of Jungar Tuvan

이 논문은 저자원 언어인 준가르 투바어의 형태소 주석 생성 병목 현상을 해결하기 위해 신경망 시퀀스 라벨링과 대규모 언어 모델 (LLM) 후수정 기법을 결합한 하이브리드 파이프라인을 제안하고, 이를 통해 문서화 작업 부하를 크게 줄일 수 있음을 입증합니다.

Siyu Liang, Talant Mawkanuli, Gina-Anne Levow2026-03-03💬 cs.CL

The Aftermath of DrawEduMath: Vision Language Models Underperform with Struggling Students and Misdiagnose Errors

이 논문은 DrawEduMath 벤치마크를 통해 11 개의 비전 - 언어 모델이 수학 문제 해결 능력은 갖추고 있으나, 학습 부진이 있는 학생의 오류를 식별하고 진단하는 교육적 맥락에서는 성능이 크게 저하된다는 점을 밝혔습니다.

Li Lucy, Albert Zhang, Nathan Anderson + 2 more2026-03-03💬 cs.CL

Towards Orthographically-Informed Evaluation of Speech Recognition Systems for Indian Languages

이 논문은 LLM 을 활용하여 인도어권의 철자 변형을 고려한 새로운 평가 프레임워크 (OIWER) 를 제안함으로써 기존 WER 의 과도한 부정적 평가를 완화하고 인간 지각과 더 잘 부합하는 음성 인식 시스템 평가가 가능함을 입증합니다.

Kaushal Santosh Bhogale, Tahir Javed, Greeshma Susan John + 4 more2026-03-03💬 cs.CL

S-VoCAL: A Dataset and Evaluation Framework for Inferring Speaking Voice Character Attributes in Literature

이 논문은 문학 작품 속 등장인물의 음성 속성을 추론하기 위한 최초의 데이터셋 및 평가 프레임워크인 S-VoCAL 을 제안하고, 이를 통해 RAG 파이프라인이 나이와 성별은 효과적으로 추론하지만 출신이나 신체 건강 상태와 같은 속성에서는 어려움을 겪음을 입증했습니다.

Abigail Berthe-Pardo, Gaspard Michel, Elena V. Epure + 1 more2026-03-03💬 cs.CL

Stabilizing Policy Optimization via Logits Convexity

이 논문은 SFT 와 RL 간의 학습 불안정성 차이를 로그 convexity 관점에서 분석하고, 이를 해결하기 위해 제안된 'Logits Convex Optimization(LCO)' 프레임워크가 다양한 벤치마크에서 기존 강화학습 방법보다 뛰어난 안정성과 성능을 보임을 입증합니다.

Hongzhan Chen, Tao Yang, Yuhua Zhu + 3 more2026-03-03💬 cs.CL

Qayyem: A Real-time Platform for Scoring Proficiency of Arabic Essays

이 논문은 아랍어 작문 자동 채점의 기술적 복잡성을 해소하고 다양한 최신 모델을 통합하여 교수자가 쉽게 활용할 수 있도록 설계된 웹 기반 플랫폼 'Qayyem'을 소개합니다.

Hoor Elbahnasawi, Marwan Sayed, Sohaila Eltanbouly + 2 more2026-03-03💬 cs.CL

Thoth: Mid-Training Bridges LLMs to Time Series Understanding

이 논문은 'Book-of-Thoth'라는 고품질 중간 학습 코퍼스를 활용하여 시계열 데이터와 자연어 간의 정렬을 달성한 최초의 범용 시계열 이해 LLM 인 'Thoth'를 제안하고, 이를 통해 기존 모델 대비 우수한 시계열 추론 성능과 데이터 부족 상황에서의 적응력을 입증합니다.

Jiafeng Lin, Yuxuan Wang, Jialong Wu + 3 more2026-03-03💬 cs.CL

How RL Unlocks the Aha Moment in Geometric Interleaved Reasoning

이 논문은 기하학적 추론에서 단순한 지도 미세조정 (SFT) 이 시각적 생성과 논리적 추론 간의 인과적 의존성을 학습하지 못해 성능이 저하되는 문제를 지적하고, 강화학습 기반의 'Faire' 프레임워크를 통해 모델이 도면 생성과 추론 단계를 기능적으로 정렬하도록 함으로써 복잡한 기하학 문제 해결 능력을 획기적으로 향상시킨다는 점을 제시합니다.

Xiangxiang Zhang, Caijun Jia, Siyuan Li + 9 more2026-03-03💬 cs.CL

CARD: Towards Conditional Design of Multi-agent Topological Structures

이 논문은 모델 업그레이드나 도구 변경과 같은 동적 환경 변화에 적응하여 다중 에이전트 시스템의 통신 토폴로지를 조건부로 설계하는 CARD 프레임워크를 제안하고, 이를 통해 다양한 조건에서 고정식 또는 프롬프트 기반 방법보다 뛰어난 성능과 견고성을 입증합니다.

Tongtong Wu, Yanming Li, Ziye Tang + 5 more2026-03-03💬 cs.CL

Unified Vision-Language Modeling via Concept Space Alignment

이 논문은 기존 텍스트 임베딩 공간 SONAR 를 확장하여 비전-언어 정렬을 수행한 V-SONAR 와 이를 기반으로 한 V-LCM 을 제안함으로써, 다양한 언어와 모달리티에 걸친 영상 캡셔닝 및 질문 응답 작업에서 기존 최첨단 모델을 능가하는 성능을 입증했습니다.

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL

Semantic XPath: Structured Agentic Memory Access for Conversational AI

이 논문은 컨텍스트 창 제한과 평면적 메모리 접근법의 한계를 극복하기 위해 계층적 트리 구조를 기반으로 한 'Semantic XPath'를 제안하여, 기존 RAG 대비 성능을 176.7% 향상시키고 토큰 사용량을 9.1%로 획기적으로 줄인 대화형 AI 시스템의 새로운 패러다임을 제시합니다.

Yifan Simon Liu, Ruifan Wu, Liam Gallagher + 3 more2026-03-03💬 cs.CL

DEP: A Decentralized Large Language Model Evaluation Protocol

이 논문은 LLM 평가의 일관성, 재현성 및 데이터 유출 문제를 해결하기 위해 벤치마크와 정답을 서버 측에 격리하여 모듈형 플러그 앤 플레이 평가를 가능하게 하는 탈중앙화 평가 프로토콜 (DEP) 과 이를 구현한 툴킷을 제안합니다.

Jianxiang Peng, Junhao Li, Hongxiang Wang + 15 more2026-03-03💬 cs.CL

Token-level Data Selection for Safe LLM Fine-tuning

이 논문은 미세 조정 중 발생하는 안전성 저하를 해결하기 위해 샘플 단위가 아닌 토큰 단위로 위험을 정량화하고 제거하는 새로운 프레임워크 TOSS 와 점진적 정제 전략 TOSS-Pro 를 제안하여 안전성과 유용성을 동시에 향상시키는 방법을 제시합니다.

Yanping Li, Zhening Liu, Zijian Li + 2 more2026-03-03💬 cs.CL

← 이전 다음 →