cs.CL 편의 논문 | Gist.Science

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

이 논문은 심장 질환의 정확한 감별 진단과 설명 가능성을 위해 설계된 자율 에이전트 시스템 'HeartAgent'를 제안하며, 기존 방법 및 비보조 전문가 대비 진단 정확도와 설명의 질을 크게 향상시켰음을 입증합니다.

Shuang Zhou, Kai Yu, Song Wang, Wenya Xie, Zaifu Zhan, Meng-Han Tsai, Yuen-Hei Chung, Shutong Hou, Huixue Zhou, Min Zeng, Bhavadharini Ramu, Lin Yee Chen, Feng Xie, Rui Zhang2026-03-12💬 cs.CL

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

이 논문은 현재 RLVR(검증 가능한 보상을 통한 강화 학습) 연구에서 영어 중심의 한계를 극복하기 위해, 14 개 언어로 번역되고 정제된 10,000 개 이상의 고품질 수학 문제 데이터셋인 'mAceReason-Math'를 제안하고 공개합니다.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

이 논문은 기계적 해석을 통해 대형 언어 모델이 문자 단위 토큰화 입력에서도 견고한 성능을 보이는 핵심 메커니즘으로, 은닉 상태가 표준 단어 토큰을 재구성하는 '단어 복원 (word recovery)' 과정과 이를 가능하게 하는 초기 계층 내의 인접 문자 간 주의 메커니즘을 규명했다고 요약할 수 있습니다.

Zhipeng Yang, Shu Yang, Lijie Hu, Di Wang2026-03-12💬 cs.CL

Large Language Models as Annotators for Machine Translation Quality Estimation

이 논문은 고비용의 대형 언어 모델 (LLM) 을 직접 활용하는 대신, LLM 을 MQM 스타일 주석 생성에 사용하여 COMET 모델을 학습시킴으로써 중국어 - 영어 및 영어 - 독일어 번역 품질 평가에서 인간 주석과 높은 상관관계를 보이는 경쟁력 있는 성능을 달성하는 방법을 제안합니다.

Sidi Wang, Sophie Arnoult, Amir Kamran2026-03-12💬 cs.CL

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

이 논문은 중국어 은유 식별의 투명성과 해석 가능성을 높이기 위해 LLM 을 보조로 활용하여 MIPVU 등 네 가지 서로 다른 프로토콜을 실행 가능한 규칙 스크립트로 구현하고, 이를 통해 프로토콜 선택이 모델 성능보다 식별 결과의 변동성에 더 큰 영향을 미친다는 것을 입증했습니다.

Weihang Huang, Mengna Liu2026-03-12💬 cs.CL

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

이 논문은 1999 년부터 2025 년까지의 룩셈부르크어 뉴스 27 만 건을 분석하여 언어 간 차용 현상을 문서 수준이 아닌 어휘 및 형태소 적응에 초점을 맞춰 정량화하고, 프랑스어 기반의 차용어가 주를 이루며 점진적으로 증가하는 경향을 규명했습니다.

Nina Hosseini-Kivanani, Fred Philippy2026-03-12💬 cs.CL

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

이 논문은 14 개 언어로 검증 가능한 추론 문제를 절차적으로 생성할 수 있는 'Multilingual Reasoning Gym'을 소개하며, 이를 통해 대규모 다국어 추론 모델 연구와 강화 학습 평가를 지원한다고 요약할 수 있습니다.

Konstantin Dobler, Simon Lehnerer, Federico Scozzafava, Jonathan Janke, Mohamed Ali2026-03-12💬 cs.CL

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

이 논문은 기존 하드 레이블 텍스트 공격의 비효율적인 탐색 방식을 극복하기 위해, 다중 팔 밴딧 알고리즘을 활용해 예측의 핵심이 되는 '피벗 세트'를 식별하고 전략적으로 교란함으로써 공격 성공률과 쿼리 효율성을 동시에 향상시키는 새로운 프레임워크인 PivotAttack 을 제안합니다.

Yuzhi Liang, Shiliang Xiao, Jingsong Wei, Qiliang Lin, Xia Li2026-03-12💬 cs.CL

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

이 논문은 데이터가 부족한 NPU 커널 합성 분야에서 대규모 언어 모델의 성능 저하를 해결하기 위해, 가치 기반 기억 메커니즘을 통해 경험을 축적하고 단계별로 최적화하는 자기 진화 에이전트 프레임워크인 EvoKernel 을 제안합니다.

Yujie Zheng, Zhuo Li, Shengtao Zhang, Hanjing Wang, Junjie Sheng, Jiaqian Wang, Junchi Yan, Weinan Zhang, Ying Wen, Bo Tang, Muning Wen2026-03-12🤖 cs.LG

$V_{0.5}$ : Generalist Value Model as a Prior for Sparse RL Rollouts

이 논문은 희소 롤아웃 환경에서 사전 학습된 일반 가치 모델의 예측을 사전 지식으로 활용하고 실시간 통계 검증을 통해 추가 롤아웃 예산을 동적으로 할당함으로써, 편향과 분산을 균형 있게 제어하여 GRPO 및 DAPO 보다 우수한 성능을 보이는 새로운 가치 모델 $V_{0.5}$ 를 제안합니다.

Yi-Kai Zhang, Yueqing Sun, Hongyan Hao, Qi Gu, Xunliang Cai, De-Chuan Zhan, Han-Jia Ye2026-03-12🤖 cs.LG

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

이 논문은 1800 년부터 1955 년까지의 출판 시기와 5 세기부터 20 세기까지의 집필 시기를 아우르는 185 개 문학 작품 24 만 4 천 단어로 구성된 시디아크 (SiDiaC-v.2.0) 를 소개하며, 이는 스리랑카 국립도서관 자료를 기반으로 OCR 및 정제 과정을 거쳐 생성된 가장 방대한 싱할라어 역사적 말뭉치임을 밝히고 있습니다.

Nevidu Jayatilleke, Nisansa de Silva, Uthpala Nimanthi, Gagani Kulathilaka, Azra Safrullah, Johan Sofalas2026-03-12💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

이 논문은 영어와 독일어 카탈로그 기록에 통합 권위 파일 (GND) 주석이 달린 대규모 이언어 말뭉치와 머신 액션 가능한 GND 분류 체계를 공개하여, 확장 가능한 주제 색인 및 권위 기반 AI 보조 도구를 위한 오토니지 인식 다중 레이블 분류 연구를 가능하게 한다고 요약할 수 있습니다.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma Suominen2026-03-12💬 cs.CL

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

이 논문은 기존 지식 증류의 한계를 극복하고, 대규모 비전 - 언어 모델 (블랙박스 포함) 의 내부 구조 변경이나 추가 학습 없이 효율적으로 언어 전용 모델로 지식을 전이하여 성능을 향상시키는 새로운 프레임워크인 ARMADA 를 제안합니다.

Ayan Sengupta, Shantanu Dixit, Md Shad Akhtar, Tanmoy Chakraborty2026-03-12💬 cs.CL

GLM-OCR Technical Report

GLM-OCR 는 0.9B 파라미터의 경량 멀티모달 모델로, 멀티 토큰 예측 (MTP) 메커니즘과 2 단계 파이프라인을 통해 문서 이해, 텍스트 및 수식 전사, 표 구조 복원, 핵심 정보 추출 등 다양한 작업에서 높은 효율성과 최첨단 성능을 달성합니다.

Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang2026-03-12💬 cs.CL

← 이전 다음 →

cs.CL

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Large Language Models as Annotators for Machine Translation Quality Estimation

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

$V_{0.5}$ : Generalist Value Model as a Prior for Sparse RL Rollouts

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

GLM-OCR Technical Report

LLM2Vec-Gen: Generative Embeddings from Large Language Models

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Instruction set for the representation of graphs

COMIC: Agentic Sketch Comedy Generation

cs.CL

HeartAgent: An Autonomous Agent System for Explainable Differential Diagnosis in Cardiology

mAceReason-Math: A Dataset of High-Quality Multilingual Math Problems Ready For RLVR

Word Recovery in Large Language Models Enables Character-Level Tokenization Robustness

Large Language Models as Annotators for Machine Translation Quality Estimation

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

LuxBorrow: From Pompier to Pompjee, Tracing Borrowing in Luxembourgish

Multilingual Reasoning Gym: Multilingual Scaling of Procedural Reasoning Environments

PivotAttack: Rethinking the Search Trajectory in Hard-Label Text Attacks via Pivot Words

Towards Cold-Start Drafting and Continual Refining: A Value-Driven Memory Approach with Application to NPU Kernel Synthesis

V0.5V_{0.5}V0.5​: Generalist Value Model as a Prior for Sparse RL Rollouts

SiDiaC-v.2.0: Sinhala Diachronic Corpus Version 2.0

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

From Images to Words: Efficient Cross-Modal Knowledge Distillation to Language Models from Black-box Teachers

GLM-OCR Technical Report

LLM2Vec-Gen: Generative Embeddings from Large Language Models

TOSSS: a CVE-based Software Security Benchmark for Large Language Models

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Beyond the Illusion of Consensus: From Surface Heuristics to Knowledge-Grounded Evaluation in LLM-as-a-Judge

Instruction set for the representation of graphs

COMIC: Agentic Sketch Comedy Generation

$V_{0.5}$ : Generalist Value Model as a Prior for Sparse RL Rollouts