ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

ReflexiCoder 提出了一种基于强化学习的框架,通过将生成、反思与自修正的完整轨迹内化至模型权重中,使大语言模型能够在无需外部反馈或执行引擎的情况下实现自主代码调试,从而在多项基准测试中达到甚至超越 GPT-5.1 的性能,同时显著降低了推理计算开销。

Juyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim2026-03-09🤖 cs.LG

Confidence Before Answering: A Paradigm Shift for Efficient LLM Uncertainty Estimation

该论文提出了一种名为 CoCA 的基于 GRPO 强化学习的框架,通过“先置信度后回答”的新范式及分段奖励机制,实现了大语言模型置信度校准与回答准确性的联合优化,从而在保持回答质量的同时显著提升了不确定性估计的可靠性。

Changcheng Li, Jiancan Wu, Hengheng Zhang, Zhengsu Chen, Guo An, Junxiang Qiu, Xiang Wang, Qi Tian2026-03-09💬 cs.CL

Learning Next Action Predictors from Human-Computer Interaction

该论文提出了名为 LongNAP 的用户模型,通过结合参数化学习与上下文学习,利用大规模标注的自然交互数据来预测用户的多模态下一步操作,从而实现了在复杂交互背景下对用户需求的主动式预测。

Omar Shaikh, Valentin Teutschbein, Kanishk Gandhi, Yikun Chi, Nick Haber, Thomas Robinson, Nilam Ram, Byron Reeves, Sherry Yang, Michael S. Bernstein, Diyi Yang2026-03-09💬 cs.CL

Who We Are, Where We Are: Mental Health at the Intersection of Person, Situation, and Large Language Models

该论文基于交互主义和建构主义心理学理论,提出了一种融合个体特质与情境特征的机器学习方法,利用大型语言模型分析社交媒体数据以预测心理健康状态,在保持竞争力的同时显著提升了模型的可解释性。

Nikita Soni, August Håkan Nilsson, Syeda Mahwish, Vasudha Varadarajan, H. Andrew Schwartz, Ryan L. Boyd2026-03-09🤖 cs.AI

Track-SQL: Enhancing Generative Language Models with Dual-Extractive Modules for Schema and Context Tracking in Multi-turn Text-to-SQL

该论文提出了名为 Track-SQL 的框架,通过引入语义增强模式提取器和模式感知上下文提取器这两个双提取模块,有效解决了生成式语言模型在多轮 Text-to-SQL 任务中处理上下文信息和动态模式链接的不足,并在 SparC 和 CoSQL 数据集上取得了最先进的性能。

Bingfeng Chen, Shaobin Shi, Yongqi Luo, Boyan Xu, Ruichu Cai, Zhifeng Hao2026-03-09💬 cs.CL

MASFactory: A Graph-centric Framework for Orchestrating LLM-Based Multi-Agent Systems with Vibe Graphing

本文提出了 MASFactory,这是一个以图为核心的 LLM 多智能体系统编排框架,通过引入将自然语言意图转化为可编辑工作流的“氛围图(Vibe Graphing)”人机协同方法,解决了复杂图工作流实现困难、复用性低及外部上下文集成复杂的问题,并在多个基准测试中验证了其有效性与一致性。

Yang Liu, Jinxuan Cai, Yishen Li, Qi Meng, Zedi Liu, Xin Li, Chen Qian, Chuan Shi, Cheng Yang2026-03-09🤖 cs.AI

Experiences Build Characters: The Linguistic Origins and Functional Impact of LLM Personality

该研究通过无监督领域预训练模拟大语言模型的经验积累,利用机器人格量表量化其性格特征,发现“表达型通才”与“抑制型专才”表现最佳,且社会性特质受抑反而能提升复杂推理能力,从而揭示了训练数据语言特征对模型性格及性能的因果影响,为“人格工程”提供了新路径。

Xi Wang, Mengdie Zhuang, Jiqun Liu2026-03-09🤖 cs.AI