cs.CL 篇论文 | Gist.Science

Optimizing Language Models for Crosslingual Knowledge Consistency

本文提出了直接一致性优化（DCO）方法，这是一种无需显式奖励模型、基于大语言模型自身推导的 DPO 启发式技术，通过结构化奖励函数显著提升了多语言大模型在不同语言间知识回答的一致性、泛化性及可控性。

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

该论文指出停用词的词频分布符合 Beta 秩函数而非齐普夫定律，并据此提出了一种基于 Hill 函数的停用词子集选择模型，该模型不仅通过独立语料库得到验证，还从理论上解释了停用词呈现 Beta 秩分布及非停用词呈现二次拟合函数的原因。

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

该论文通过对比传统分类器与多种大语言模型，评估了数据增强和特征增强技术在仇恨言论检测中的效果，发现开源的 gpt-oss-20b 模型表现最佳，同时揭示了隐式仇恨言论检测的难点以及数据集、模型架构与增强策略之间的复杂交互关系。

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

本研究利用参数高效微调等技术，评估了 Llama 3.2 和 Gemma 3 等大型语言模型在 DUTA10K 数据集上检测在线市场非法内容的表现，发现其在处理包含 40 个类别的复杂多分类任务时显著优于传统机器学习模型和 BERT 基线。

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

本文提出了一种双层评估框架，利用美国最高法院口头辩论语料库验证了 AI 模型在模拟法官针对性提问方面的潜力与局限，发现其虽能生成逼真的问题并覆盖关键法律议题，但在问题多样性及避免迎合性回答方面仍存在显著不足。

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

本文提出了“模型医学”这一研究范式，通过构建包含五个核心贡献（如学科分类、行为遗传框架、神经成像诊断工具及临床评估体系）的综合框架，将 AI 模型类比为生物有机体，旨在建立一套从理解、诊断到治疗模型“病症”的系统化临床实践体系。

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

本文介绍了一种结合 Gemini Deep Think 大语言模型、系统树搜索与自动数值反馈的神经符号系统，该 AI 代理成功解决了宇宙弦引力辐射功率谱积分这一理论物理开放问题，推导出了优于以往部分渐近解的精确解析解，并揭示了其与量子场论费曼参数化的深刻联系。

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

该论文针对现有基准测试的局限性，提出了“交互式基准”这一统一评估范式，通过让模型在预算约束下与裁判或对手进行互动（涵盖交互式证明与交互式游戏），更可靠地衡量其主动获取信息与推理能力，并揭示了当前模型在此类场景下仍有巨大提升空间。

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

本文提出了 IF-RewardBench，这是一个涵盖多样化指令与约束类型、采用列表式评估范式以构建偏好图的综合元评估基准，旨在解决现有基准在数据覆盖和评估模式上的不足，从而更准确地衡量指导模型对齐的裁判模型能力。

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

本文提出了 DARE 框架，通过构建包含 8191 个 CRAN 包的 RPKB 知识库并引入分布感知检索机制，显著提升了 LLM 代理在 R 语言统计生态中的代码生成与工具检索能力。

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

本文提出了 HiMAP-Travel 框架，通过分层多智能体架构结合事务性监控、协商协议及统一 GRPO 策略，有效解决了长程旅行规划中的全局约束漂移问题，在 TravelPlanner 和 FlexTravelBench 基准测试中显著超越了现有基线并实现了延迟降低。

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

本文提出了名为 SharedLLM 的框架，通过利用同一模型层堆叠实现的“自注入”机制，将长文本压缩为多粒度表示并直接注入解码层，从而在仅基于 8K 数据训练的情况下，高效地将上下文窗口扩展至 128K 以上，同时显著降低了显存占用并提升了推理速度。

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

本文提出了 TSEmbed 框架，通过结合混合专家（MoE）与低秩适应（LoRA）解决多模态大模型的任务冲突问题，并引入专家感知负采样（EANS）策略与两阶段训练范式，在 MMEB 基准及工业数据集上实现了最先进的通用多模态嵌入性能。

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

本文提出了一种基于 AI Flow 范式与边云协同架构的隐私感知框架，通过在边缘端利用信息瓶颈原理将原始图像实时转化为不可逆的抽象特征向量，并在云端结合“动态轮廓”视觉语言实现行为识别与语义重建，从而在彻底消除隐私泄露风险的同时解决了传统方案缺乏可视化证据的痛点。

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

本文提出了强化学习单轮锚点（RLSTA）方法，通过利用模型在单轮任务中的优势作为奖励锚点来对齐多轮响应，从而有效克服大模型在多轮交互中因“上下文惯性”而导致的性能衰退问题。

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

该论文提出了名为 CSV（聚类 - 采样 - 投票）的新框架，通过语义聚类、子集采样及投票策略，将大语言模型语义过滤的调用复杂度从线性降低至次线性，在显著减少调用次数和成本的同时保持了与现有方法相当的准确率。

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

本文提出了“注意力引力场”（AGF）概念，通过将位置编码与语义嵌入解耦并发现其与牛顿万有引力定律的内在一致性，显著优化了大语言模型架构并提升了准确性与可解释性。

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

该研究通过对比基于 Mem0 框架的事实记忆系统与长上下文大语言模型在准确性与累积 API 成本上的表现，揭示了两者在事实召回与成本结构上的权衡差异，并确定了在长对话场景下事实记忆系统更具成本效益的临界条件。

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

该研究通过对 890 项结果的元分析，揭示了自动短答案评分中 AI 模型在难度适应性、架构选择（解码器表现劣于编码器）、词表大小收益递减以及种族偏见和措辞敏感性等方面的系统性缺陷，并呼吁针对自回归模型的统计局限性优化系统设计。

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

该论文提出了基于梯度偏差分数（GDS）的预训练数据检测方法，通过分析样本在微调过程中梯度更新幅度、位置及神经元激活的差异化特征，有效克服了现有方法的局限性，在多个数据集上实现了优于基线的检测性能与跨域迁移能力。

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL