ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

本論文は、外部オラクルや実行フィードバックに依存せず、強化学習を用いてモデルの重み自体にコード生成・自己反省・自己修正の能力を内蔵させる新たなフレームワーク「ReflexiCoder」を提案し、小規模なオープンソースモデルでも GPT-5.1 などのプロプライエタリモデルに匹敵する性能を達成したことを報告しています。

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

この論文は、LLM の回答後に信頼性を評価する既存手法の限界を克服し、回答前に信頼性を出力する「信頼性ファースト」のパラダイムを提案し、セグメント化されたクレジット割り当てを用いて信頼性の較正と回答精度を同時に最適化する強化学習フレームワーク「CoCA」を開発したことを報告しています。

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

この論文は、大規模言語モデルによる長編物語生成における一貫性欠如の問題を特定し、5 つのカテゴリーと 19 のサブタイプからなるエラー分類体系を定義した評価ベンチマーク「ConStory-Bench」と自動検出ツール「ConStory-Checker」を提案し、事実や時間軸における矛盾が物語の中間部分やエントロピーの高い領域で頻発する傾向を実証的に明らかにしたものです。

Junjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie2026-03-09🤖 cs.AI

InfoGatherer: Principled Information Seeking via Evidence Retrieval and Strategic Questioning

この論文は、LLM の推論における不確実性を Dempster-Shafer 理論に基づく証拠ネットワークで定式化し、文書検索と戦略的な質問を統合して高リスク領域での信頼性の高い意思決定を実現する「InfoGatherer」という枠組みを提案しています。

Maksym Taranukhin, Shuyue Stella Li, Evangelos Milios, Geoff Pleiss, Yulia Tsvetkov, Vered Shwartz2026-03-09💬 cs.CL

Learning Next Action Predictors from Human-Computer Interaction

この論文は、ユーザーの長期的なマルチモーダル相互作用データから学習し、文脈を考慮して次の行動を予測する新しいモデル「LongNAP」を提案し、従来の手法を大幅に上回る精度でユーザーのニーズを先回りして予測できることを実証しています。

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang2026-03-09💬 cs.CL

Addressing the Ecological Fallacy in Larger LMs with Human Context

この論文は、大規模言語モデル(8B Llama)において、同じ著者の他のテキストを文脈として扱う「HuLM」タスクや「HuFT」手法を用いて生態学的誤謬に対処することで、標準的な微調整よりも下流タスクの性能を向上させられることを示しています。

Nikita Soni, Dhruv Vijay Kunjadiya, Pratham Piyush Shah, Dikshya Mohanty, H. Andrew Schwartz, Niranjan Balasubramanian2026-03-09🤖 cs.AI

Implicit Style Conditioning: A Structured Style-Rewrite Framework for Low-Resource Character Modeling

本論文は、データ不足とスタイルの解離が課題となる小規模言語モデル向けに、語彙・構文・語用論の 3 次元にスタイルを明示的に分解し、推論時の CoT トークンを不要とする暗黙的なスタイル条件付け戦略を提案することで、アニメキャラクターのような高スタイル化ドメインにおいて、より大規模なモデルを上回る一貫性と忠実度を実現する手法を提示しています。

Chanhui Zhu2026-03-09🤖 cs.LG

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

この論文は、個人の特性と状況的要素を統合した理論に基づく解釈可能なモデルを開発し、ソーシャルメディアデータから精神的健康を予測・分析することで、計算機モデルと心理学的理論の融合が文脈に敏感で人間に理解しやすい動的な精神状態の評価に有効であることを示しています。

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

この論文は、多ターンテキストから SQL への生成において文脈とスキーマの追跡を強化する「Semantic-enhanced Schema Extractor」と「Schema-aware Context Extractor」という二つの抽出モジュールを備えた Track-SQL フレームワークを提案し、SparC および CoSQL データセットで最先端の性能を達成したことを示しています。

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

本論文は、大規模言語モデルに基づくマルチエージェントシステムのオーケストレーションを目的としたグラフ中心フレームワーク「MASFactory」を提案し、自然言語の意図を編集可能なワークフローにコンパイルする「Vibe Graphing」や再利用可能コンポーネント、可視化機能を通じて、複雑なグラフワークフローの実装負担を軽減し、ベンチマークでその有効性を検証したものである。

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

ViewFusion: Structured Spatial Thinking Chains for Multi-View Reasoning

本論文は、複数の視点にまたがる空間推論において、視点間の関係性を明示的に推論する「空間的思考連鎖」を中間ワークスペースとして構築し、これを基に質問に応答する二段階フレームワーク「ViewFusion」を提案し、MMSI-Bench において既存モデルを大幅に上回る精度を達成したことを報告しています。

Xingjian Tao, Yiwei Wang, Yujun Cai, Yifan Song, Jing Tang2026-03-09💬 cs.CL

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

この論文は、ドメイン固有テキストを用いた継続的事前学習によりLLMに多様な「経験」を積ませることで、その言語的基盤と性格特性(Big Five)が推論能力に因果的に影響を与えることを実証し、特に社会的特性の抑制が複雑な推論を向上させる「抑制の優位性」を発見した上で、LLMの性格を設計する「性格工学」への道筋を示しています。

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI