cs.CL 篇论文 | Gist.Science

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

该论文提出了一种面向阿拉伯语社交媒体情感预测的可信度引导弱监督框架，通过多智能体大语言模型生成实例级可靠性估计，并利用 QUBO 优化算法筛选出兼具帧平衡性与低冗余度的高质量子集，从而在无需强标注的情况下提升了模型的可信度与跨域泛化能力。

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

该研究系统评估了五种主流大语言模型在零样本温度设置下对相同输入评分的稳定性，发现模型间存在显著的评分不一致性、同一模型重复运行时的波动性以及温度参数对稳定性的影响差异，从而揭示了将大模型作为自动评估器用于企业生产流程时在公平性、可复现性和可靠性方面面临的严峻挑战。

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

该研究通过大规模实验证实，视觉语言模型中的功能 affordance 计算具有显著的情境依赖性，其词汇和语义层面的表征均随情境发生巨大漂移，从而建议机器人学应从静态世界建模转向动态的即时本体投射（JIT Ontology）。

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

该研究通过对比实验证明，在临床诊断中采用混合厂商（如 o4-mini、Gemini-2.5-Pro 和 Claude-4.5-Sonnet）的多智能体大语言模型系统，能够通过整合互补的归纳偏置来克服单一厂商团队的共性偏差，从而显著提升诊断的召回率与准确率。

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

该研究提出了一种结合低秩适应（LoRA）微调与合规感知自指令（Self-Instruct）方法的框架，通过集成26项过滤验证流程，在严格遵循国际海事组织标准海事通信用语（SMCP）的前提下，高效生成了高质量、多样化的合成海事无线电对话数据集，以解决安全关键领域数据稀缺的难题。

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

该论文提出了“缺失内容（WIM）”评分系统，通过让评判者撰写关于模型输出缺失信息的自然语言反馈，并利用句子嵌入计算其与输出的余弦相似度来生成可解释的评分，从而克服了传统离散数值评分的主观性局限，为偏好学习提供了更丰富且可调试的学习信号。

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

本文系统综述了针对大语言模型推理的动态路由与级联技术，通过构建涵盖决策时机、信息依据与计算方式的概念框架，分析了多种路由范式及其权衡，旨在通过智能模型选择实现效率与性能的最优平衡。

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

本文提出了 SkillNet，一个旨在通过统一本体论从异构来源创建、评估和组织 AI 技能的大规模基础设施，其包含的 20 万 + 技能库及评估体系显著提升了智能体在多项任务中的表现，使其平均奖励提高 40% 并减少 30% 的执行步骤。

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

本研究提出了首个面向燃烧科学的大语言模型端到端开发框架，通过构建多模态知识库、设计评估基准及实施从检索增强生成到知识图谱与持续预训练的三阶段知识注入路径，系统验证了单纯检索方法的性能瓶颈并确立了构建领域基础模型的关键技术路线。

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

该论文提出了一种通过优化损失函数以最大化推理阶段数值不稳定性，从而生成导致多模态大语言模型性能显著下降的对抗图像的新颖攻击方法，并在多个主流模型和基准数据集上验证了这种不同于传统对抗扰动的新型失效模式。

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

该论文提出了一种利用无答案背景信息重写查询以消除歧义的方法，在“人类终极考试”基准测试中将模型准确率从 0.14 提升至 0.37，证明了结合动态检索增强生成（RAG）与查询重写能显著优于传统提示工程。

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

该论文通过对比 2024 年和 2025 年两个时间点的 FreshStack 技术检索基准快照，发现尽管文档随时间发生迁移（如从 LangChain 转向 LlamaIndex），但检索模型的评估排名仍保持高度相关，证明了在动态演变的语料库中重新评估检索基准依然可靠。

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

本文提出了自适应记忆准入控制（A-MAC）框架，通过将记忆价值分解为五个可解释因素并结合轻量级规则与 LLM 辅助评估，实现了可审计且高效的长时记忆管理，在 LoCoMo 基准测试中显著提升了精度 - 召回平衡并降低了延迟。

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

本文针对现有流式大语言模型定义模糊且缺乏系统分类的问题，提出了基于数据流与动态交互的统一定义及系统分类体系，深入探讨了其方法论、应用场景与未来研究方向，并维护了相关论文的持续更新资源库。

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

本文提出了名为 GOLF 的强化学习框架，通过聚合外部批评与组内尝试等群体级自然语言反馈来生成可操作的优化建议，并将其作为离策略脚手架注入训练，从而在稀疏奖励环境下显著提升探索效率与样本利用率。

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

本文提出了名为 Vibe Code Bench 的新基准，通过自主浏览器代理对 16 个前沿模型进行端到端 Web 应用开发评估，揭示了当前模型在从零构建应用方面仍存在显著局限，并强调了自测试机制及评估者一致性对结果的关键影响。

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

本文提出了一种通过协调建模检索与生成阶段，将语义对齐与显式证据约束相结合的新方法，以解决检索增强生成中存在的语义错位和证据利用不足问题，从而在保持语言流畅性的同时显著提升生成内容的 factual 可靠性与可验证性。

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

本文提出了 iAgentBench，一个基于真实热点话题的动态开放域问答基准，旨在通过构建需要跨多源证据整合与推理的复杂问题，评估生成式智能体在信息寻求中的高阶“意义构建”能力，而非仅测试单一信息检索。

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

本文介绍了"Stan"，这是一个基于本地部署的开源大语言模型（如 Llama 3.1 和 Whisper）构建的热力学课程辅助系统，它通过检索增强生成技术同时为学生提供基于教材索引的精准问答，并为教师生成包含教学总结、学生困惑点及教学案例的结构化分析，从而在保障数据隐私和成本可控的前提下，全面支持教与学。

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

该研究利用 GPT-4.1-nano 模型结合视觉与文本特征，成功实现了对美国成年人数据可视化测试题目难度的预测，其中多模态方法在预测精度上显著优于单一模态方法，展示了大语言模型在心理测量分析和自动化试题开发中的潜力。

Samin Khan2026-03-06💻 cs