cs.CL 件の論文 | Gist.Science

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

本論文は、外部オラクルや実行フィードバックに依存せず、強化学習を用いてモデルの重み自体にコード生成・自己反省・自己修正の能力を内蔵させる新たなフレームワーク「ReflexiCoder」を提案し、小規模なオープンソースモデルでも GPT-5.1 などのプロプライエタリモデルに匹敵する性能を達成したことを報告しています。

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

この論文は、SparseGPT の事前定義された順序の限界を克服し、ブロック損失と列損失に基づいて重みを再順序化することで、大規模言語モデルのワンショット剪定精度を向上させる手法「ROSE」を提案し、複数のモデルで既存手法を上回る性能を実証したものです。

Mingluo Su, Huan Wang2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

この論文は、LLM の回答後に信頼性を評価する既存手法の限界を克服し、回答前に信頼性を出力する「信頼性ファースト」のパラダイムを提案し、セグメント化されたクレジット割り当てを用いて信頼性の較正と回答精度を同時に最適化する強化学習フレームワーク「CoCA」を開発したことを報告しています。

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

VerChol -- Grammar-First Tokenization for Agglutinative Languages

この論文は、英語のような孤立語に最適化された統計的トークナイザが接尾辞を多く持つ膠着語の形態素境界を破壊する問題を指摘し、文法構造を優先する新たなトークナイザ「VerChol」を提案するものである。

Prabhu Raja2026-03-09💬 cs.CL

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

この論文は、大規模言語モデルによる長編物語生成における一貫性欠如の問題を特定し、5 つのカテゴリーと 19 のサブタイプからなるエラー分類体系を定義した評価ベンチマーク「ConStory-Bench」と自動検出ツール「ConStory-Checker」を提案し、事実や時間軸における矛盾が物語の中間部分やエントロピーの高い領域で頻発する傾向を実証的に明らかにしたものです。

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

この論文は、コンテンツ保存率（CPR）とタグの形式適合性（TWF）という新しい評価指標を用いて複数の LLM からの出力を最適に選択するアンサンブル手法を提案し、国連安全保障理事会決議の正確かつ効率的なセマンティックタグ付けを実現するシステムを構築したことを報告しています。

Hussein Ghaly2026-03-09💬 cs.CL

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

この論文は、LLM の推論における不確実性を Dempster-Shafer 理論に基づく証拠ネットワークで定式化し、文書検索と戦略的な質問を統合して高リスク領域での信頼性の高い意思決定を実現する「InfoGatherer」という枠組みを提案しています。

Maksym Taranukhin, Shuyue Stella Li, Evangelos Milios, Geoff Pleiss, Yulia Tsvetkov, Vered Shwartz2026-03-09💬 cs.CL

Learning Next Action Predictors from Human-Computer Interaction

この論文は、ユーザーの長期的なマルチモーダル相互作用データから学習し、文脈を考慮して次の行動を予測する新しいモデル「LongNAP」を提案し、従来の手法を大幅に上回る精度でユーザーのニーズを先回りして予測できることを実証しています。

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang2026-03-09💬 cs.CL

Addressing the Ecological Fallacy in Larger LMs with Human Context

この論文は、大規模言語モデル（8B Llama）において、同じ著者の他のテキストを文脈として扱う「HuLM」タスクや「HuFT」手法を用いて生態学的誤謬に対処することで、標準的な微調整よりも下流タスクの性能を向上させられることを示しています。

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

本論文は、データ不足とスタイルの解離が課題となる小規模言語モデル向けに、語彙・構文・語用論の 3 次元にスタイルを明示的に分解し、推論時の CoT トークンを不要とする暗黙的なスタイル条件付け戦略を提案することで、アニメキャラクターのような高スタイル化ドメインにおいて、より大規模なモデルを上回る一貫性と忠実度を実現する手法を提示しています。

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

この論文は、個人の特性と状況的要素を統合した理論に基づく解釈可能なモデルを開発し、ソーシャルメディアデータから精神的健康を予測・分析することで、計算機モデルと心理学的理論の融合が文脈に敏感で人間に理解しやすい動的な精神状態の評価に有効であることを示しています。

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

この論文は、2 枚の画像間の静的な比較に留まらず、中間フレームの生成と学習可能なクエリを用いて変化の「手順」を動的にモデル化する新しいフレームワーク「ProCap」を提案し、変化キャプション生成の精度向上を実現するものです。

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

この論文は、多ターンテキストから SQL への生成において文脈とスキーマの追跡を強化する「Semantic-enhanced Schema Extractor」と「Schema-aware Context Extractor」という二つの抽出モジュールを備えた Track-SQL フレームワークを提案し、SparC および CoSQL データセットで最先端の性能を達成したことを示しています。

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

← 前へ次へ →

cs.CL

ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

VerChol -- Grammar-First Tokenization for Agglutinative Languages

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Building an Ensemble LLM Semantic Tagger for UN Security Council Resolutions

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

Learning Next Action Predictors from Human-Computer Interaction

Addressing the Ecological Fallacy in Larger LMs with Human Context

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

Evaluating Austrian A-Level German Essays with Large Language Models for Automated Essay Scoring

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

DeepSight: Bridging Depth Maps and Language with a Depth-Driven Multimodal Model

Making Implicit Premises Explicit in Logical Understanding of Enthymemes

Diffusion Language Models Are Natively Length-Aware