cs.CL 편의 논문 | Gist.Science

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

이 논문은 외부 오라클이나 실행 피드백 없이도 강화 학습을 통해 생성된 코드에 대한 자기 성찰과 자기 수정 능력을 내재화한 새로운 프레임워크 'ReflexiCoder'를 제안하며, 이를 통해 1.5B~14B 크기의 오픈소스 모델 중 최고 성능을 달성하고 추론 시 토큰 효율성을 40% 향상시켰음을 보여줍니다.

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

이 논문은 SparseGPT 의 사전 정의된 가지치기 순서의 한계를 극복하기 위해 가지치기 손실 크기에 따라 가중치와 블록을 재배열하는 'ROSE'를 제안하여, 다양한 대규모 언어 모델에서 기존 방법보다 더 정확한 원샷 가지치기 성능을 달성함을 보여줍니다.

Mingluo Su, Huan Wang2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

이 논문은 기존 답변 후 신뢰도를 추정하는 방식의 한계를 극복하기 위해, GRPO 강화학습을 활용해 답변 정확도와 신뢰도 보정을 동시에 최적화하는 'CoCA' 프레임워크를 제안하여 LLM 의 불확실성 추정을 효율적으로 개선하는 새로운 패러다임을 제시합니다.

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

VerChol -- Grammar-First Tokenization for Agglutinative Languages

이 논문은 영어 중심의 통계적 토크나이저가 접미어와 접두어가 풍부한 교착어에서 형태소 경계를 왜곡하는 문제를 해결하기 위해, 문법 규칙을 우선시하는 새로운 토큰화 방법인 'VerChol'을 제안합니다.

Prabhu Raja2026-03-09💬 cs.CL

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

이 논문은 장편 스토리 생성 시 발생하는 일관성 오류를 체계적으로 분석하기 위해 새로운 벤치마크 'ConStory-Bench'와 자동 검증 도구 'ConStory-Checker'를 제안하고, 다양한 LLM 들의 일관성 오류가 사실 및 시간적 차원에서 주로 발생하며 이야기의 중간 부분과 높은 토큰 엔트로피 구간에서 빈번하게 나타난다는 사실을 규명했습니다.

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

이 논문은 UN 안보리 결의안의 의미 태깅을 위해 여러 LLM 의 성능 변이를 활용한 앙상블 방법론과 환각을 방지하는 새로운 평가 지표를 도입하여, 비용 효율적으로 고품질의 데이터 정제 및 태깅 결과를 도출하는 신뢰할 수 있는 시스템을 제안합니다.

Hussein Ghaly2026-03-09💬 cs.CL

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

이 논문은 법적 및 의료 분야에서 불완전한 정보와 모순된 증거를 Dempster-Shafer 이론 기반의 증거 네트워크로 체계적으로 통합하여, 기존 방법보다 더 적은 대화 횟수로 신뢰할 수 있는 의사결정을 지원하는 'InfoGatherer' 프레임워크를 제안합니다.

Maksym Taranukhin, Shuyue Stella Li, Evangelos Milios, Geoff Pleiss, Yulia Tsvetkov, Vered Shwartz2026-03-09💬 cs.CL

Learning Next Action Predictors from Human-Computer Interaction

이 논문은 사용자의 멀티모달 상호작용 데이터를 기반으로 다음 행동을 예측하는 'LongNAP' 모델을 제안하고, 이를 통해 방대한 양의 자연스러운 사용자 행동 데이터를 학습하여 개인화된 행동 예측 성능을 크게 향상시켰음을 보여줍니다.

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang2026-03-09💬 cs.CL

Addressing the Ecological Fallacy in Larger LMs with Human Context

이 논문은 대규모 언어 모델 (8B Llama) 에 대해 저자의 언어적 맥락을 고려한 HuLM 과 HuFT 기법을 적용하여 생태학적 오류를 해결함으로써, 기존 표준 미세조정 방식보다 다양한 하위 작업에서 성능을 크게 향상시킬 수 있음을 입증했습니다.

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

이 논문은 데이터 부족과 스타일 분리 복잡성으로 인해 소규모 언어 모델의 역할극 성능이 제한되는 문제를 해결하기 위해, 어휘·구문·화용론적 스타일을 명시적으로 분리하고 추론 과정에서의 연쇄 사고 (CoT) 증류 기반의 암묵적 스타일 조건부 전략을 제안하여, 추론 시 추가 토큰 없이도 소비자용 하드웨어에서 대형 모델보다 뛰어난 스타일 일관성과 의미 충실도를 달성하는 효율적인 프레임워크를 제시합니다.

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

이 논문은 개인적 성향과 상황적 맥락의 상호작용을 기반으로 한 이론적 프레임워크와 대규모 언어 모델을 결합하여, 해석 가능성과 예측 성능을 동시에 확보하는 동적 정신 건강 평가 모델을 개발하고 그 유효성을 입증합니다.

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

이 논문은 정적인 이미지 쌍 비교를 넘어 변화의 시간적 역학을 명시적으로 모델링하여 두 이미지 간의 차이와 변화 과정을 더 정확하게 설명하는 새로운 프레임워크 'ProCap'을 제안합니다.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

이 논문은 다중 턴 텍스트 -SQL 작업에서 생성형 언어 모델의 성능을 향상시키기 위해 스키마와 컨텍스트 추적을 위한 이중 추출 모듈을 도입한 'Track-SQL' 프레임워크를 제안하고, SparC 및 CoSQL 데이터셋에서 최첨단 성능을 입증합니다.

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

← 이전 다음 →

cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

VerChol -- Grammar-First Tokenization for Agglutinative Languages

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

Learning Next Action Predictors from Human-Computer Interaction

Addressing the Ecological Fallacy in Larger LMs with Human Context

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Diffusion Language Models Are Natively Length-Aware