cs.CL 篇论文 | Gist.Science

Prompt Sensitivity and Answer Consistency of Small Open-Source Large Language Models on Clinical Question Answering: Implications for Low-Resource Healthcare Deployment

该研究评估了五种小型开源大语言模型在消费级 CPU 硬件上对临床问答的提示敏感性与答案一致性，发现高一致性并不等同于高准确性，其中 Llama 3.2 在低资源部署中展现了最佳的综合性能，而角色扮演提示会降低准确率且仅领域预训练不足以支撑结构化临床问答。

Shravani Hariprasad2026-03-05🤖 cs.AI

A Study on Building Efficient Zero-Shot Relation Extraction Models

本文针对现有零样本关系抽取模型在离线预计算和拒绝机制方面的不切实际假设，通过引入模型分类并提出单遍处理及拒绝策略，在更贴近现实的评估场景下对比了多种先进工具，发现尽管现有模型均缺乏足够的鲁棒性，但 AlignRE 在各项指标上表现最佳。

Hugo Thomas, Caio Corro, Guillaume Gravier + 1 more2026-03-05💬 cs.CL

Extracting Training Dialogue Data from Large Language Model based Task Bots

本文针对大语言模型任务型对话系统（TODS）中存在的训练数据隐私泄露风险，通过系统量化研究揭示了现有提取攻击的局限性，并提出了一种结合响应采样与成员推断的新型攻击方法，成功实现了高精度提取数千条对话状态标签，同时深入分析了影响数据记忆的关键因素及缓解策略。

Shuo Zhang, Junzhou Zhao, Junji Hou + 3 more2026-03-05🤖 cs.AI

From Variance to Invariance: Qualitative Content Analysis for Narrative Graph Annotation

本文提出了一种融合定性内容分析原则的叙事图标注框架，通过构建通胀叙事有向无环图数据集并开展实验，揭示了宽松度量会高估可靠性而局部约束表示能降低标注变异性，从而为存在人类标签变异的图叙事标注研究提供了实践指导。

Junbo Huang, Max Weinig, Ulrich Fritsche + 1 more2026-03-05🤖 cs.AI

Detecting AI-Generated Essays in Writing Assessment: Responsible Use and Generalizability Across LLMs

本章概述了 AI 生成文章检测器的现状与负责任使用指南，并基于 GRE 写作提示的实证分析，评估了检测器在不同大语言模型间的泛化能力，为实际应用中检测器的开发与重训练提供了指导。

Jiangang Hao2026-03-05💬 cs.CL

LaTeX Compilation: Challenges in the Era of LLMs

本文分析了 LaTeX 在大模型时代面临的编译效率、语义生成及生态局限，并提出了基于高效数据结构与低信息熵的 WYSIWYG 结构化编辑器 Mogan STEM 作为替代方案，实验证明其在渲染性能及大模型微调效率上均优于 TeX。

Tianyou Liu, Ziqiang Li, Xurui Liu + 1 more2026-03-05💬 cs.CL

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

本文提出了一种名为 ZS-DEAE 的多智能体协作框架，通过模拟“提出 - 评估 - 修正”的人类认知过程，利用强化学习迭代优化生成与评估智能体，从而在零样本设置下显著提升文档级事件论元提取的数据生成质量与模型性能。

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

Code2Math: Can Your Code Agent Effectively Evolve Math Problems Through Exploration?

本文提出了 Code2Math 多智能体框架，利用代码执行环境自主将现有数学问题演化为结构不同且更具挑战性的新题目，为解决高质量数学推理数据稀缺问题提供了可扩展的解决方案。

Dadi Guo, Yuejin Xie, Qingyu Liu + 7 more2026-03-05💬 cs.CL

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

AriadneMem 提出了一种面向长程 LLM 代理的双阶段结构化记忆系统，通过离线熵感知过滤与冲突感知粗化、以及在线算法化桥接发现与拓扑感知合成，在显著降低运行成本和上下文消耗的同时，有效解决了长时对话中证据断裂与状态更新冲突的难题。

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

该论文通过系统分析发现语言奖励模型在长度、奉承及模型特定风格等方面存在持续偏差，并提出一种基于机制的奖励塑形方法，利用少量标注数据有效缓解低复杂度偏差，同时保持奖励质量并具备泛化能力。

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

本文提出了 MA-RAG 框架，通过构建多轮智能体检索增强生成循环，将候选回答间的语义冲突转化为主动检索信号并优化推理历史，从而在无需微调的情况下显著提升大模型在复杂医疗问答任务中的推理准确性与一致性。

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

本文提出了名为 SE-Search 的自进化搜索智能体，通过记忆净化、原子查询训练和密集奖励三大核心组件优化在线搜索行为，在单跳和多跳问答基准测试中显著超越了现有强基线模型。

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

该论文提出了一种结合监督微调与事实检索的混合架构，利用专家验证的农业知识（GOLDEN FACTS）和独立的安全响应层，显著提升了面向印度比哈尔小农户的农业咨询大模型在事实准确性、安全性及成本效益方面的表现，并发布了相关工具库以推动可复现的领域专用 AI 开发。

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

该研究通过受控开放任务发现，当前主流大语言模型（包括专门拟人化的 Centaur）在目标选择上表现出与人类显著不同的单一化“奖励黑客”或低效模式，缺乏人类特有的探索多样性，因此不宜直接替代人类用于个人助理、科学发现及政策研究等关键领域。

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

本文提出了 PlugMem，这是一种通用的插件式记忆模块，它受认知科学启发，将原始经验转化为紧凑的知识中心记忆图，从而在无需针对特定任务重新设计的情况下，显著提升了 LLM 智能体在复杂环境中的长期记忆检索与推理能力。

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

该论文提出了 TTSR 框架，通过在测试时让单一预训练模型交替扮演“学生”与“教师”角色，利用教师分析推理失败轨迹并生成针对性变体问题来指导自我反思与持续进化，从而有效解决了现有测试时训练方法在应对高难度推理任务时伪标签不可靠及适应性不足的问题。

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

TATRA 是一种无需训练数据的实例自适应提示方法，它通过即时合成示例来构建针对每个样本的特定提示，在无需任务特定优化的情况下，在文本分类和数学推理基准测试中达到了与甚至超越现有强基线模型的性能。

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

该研究通过对 10 个主流大语言模型在四个学术领域进行的近 7 万次引用审计，量化了引用幻觉的广泛性及其受模型、领域和提示词的影响，并提出了多模型共识、提示内重复验证以及基于书目特征的分类器三种有效检测与缓解方法。

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

本文通过 LaborBench 基准测试评估了多种法律 RAG 工具，发现定制工具 STARA 在修正 DOL 律师原有遗漏后准确率高达 92%，而商业 AI 工具表现甚至不如标准 RAG，并据此揭示了当前系统的检索与推理缺陷及未来设计原则。

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

本文探讨了针对大语言模型嵌入的语义缓存技术，证明了最优离线策略的 NP 难性并提出了多项式时间启发式算法，同时设计了结合多种因素的在线策略，实验表明其能显著提升语义准确性并揭示未来优化空间。

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI