cs.CL 篇论文 | Gist.Science

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

本文提出了一种结合多智能体架构与开放权重视觉语言模型的检索增强生成（RAG）框架，旨在通过整合文本与图表知识、实现迭代式质量评估，来解决州交通部门在知识管理与 workforce 培训中面临的专家经验流失及信息检索低效等挑战。

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

HumanLM: Simulating Users with State Alignment Beats Response Imitation

该论文提出了名为 HumanLM 的新训练框架，通过强化学习使模型生成与真实用户反应对齐的心理状态（如信念和情绪），从而在 Humanual 基准测试及真人实验中显著超越了仅模仿表面语言模式的现有用户模拟器。

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

本文提出了一种名为“草稿条件约束解码（DCCD）”的免训练推理方法，通过先进行无约束语义规划再基于草稿实施约束解码，有效解决了传统约束解码因强制修正而导致的语义偏差问题，显著提升了大模型在结构化生成任务中的准确率与参数效率。

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

该论文通过基准测试表明，虽然 Token-Oriented Object Notation（TOON）在特定领域任务中展现出有前景的准确率与令牌消耗比，但其优势常被提示词开销抵消，且 Plain JSON 在生成准确率上表现最佳，而受约束解码的 JSON 仅在令牌使用上占优，暗示 TOON 的长期效率潜力可能仅在上下文长度超过特定阈值时才能通过非线性收益得以体现。

Ivan Matveev2026-03-05🤖 cs.AI

TopicENA: Enabling Epistemic Network Analysis at Scale through Automated Topic-Based Coding

该研究提出了名为 TopicENA 的框架，通过结合 BERTopic 与传统的认识论网络分析（ENA）方法，实现了利用自动生成的主题替代人工编码，从而在保持概念结构建模能力的同时显著提升了 ENA 在大规模文本分析中的可扩展性与实用性。

Owen H. T. Lu, Tiffany T. Y. Hsu2026-03-05🤖 cs.AI

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

该论文提出了"History-Echoes"框架，通过结合马尔可夫链概率建模与隐藏表示几何分析，揭示了大语言模型在对话历史影响下表现出的行为持续性，并证明这种持续性在潜在空间中形成了一种限制模型轨迹的“几何陷阱”。

Adi Simhi, Fazl Barez, Martin Tutek + 2 more2026-03-05🤖 cs.AI

Combating data scarcity in recommendation services: Integrating cognitive types of VARK and neural network technologies (LLM)

该研究提出了一种融合 VARK 认知风格与大型语言模型技术的混合框架，通过语义增强、动态图谱构建及自适应界面设计，有效解决了推荐系统中用户与物品冷启动的数据稀缺难题，实现了基于心理建模的个性化推荐。

Nikita Zmanovskii2026-03-05💬 cs.CL

Entropic-Time Inference: Self-Organizing Large Language Model Decoding Beyond Attention

该论文提出了一种名为“熵时推理”的全新范式，通过引入以不确定性流动为核心的自组织架构，将大语言模型的解码过程从传统的线性时间推进转变为一种根据熵值动态分配计算资源的智能热力学过程。

Andrew Kiruluta2026-03-05🤖 cs.LG

The Logovista English-Japanese Machine Translation System

本文记录并分析了 Logovista 英日机器翻译系统的架构、开发实践及保存的工件，重点阐述了这一自 20 世纪 90 年代初至 2012 年持续商业运营的大规模显式规则系统如何在实际应用中通过回归控制、歧义管理等手段不断演进与维护。

Barton D. Wright2026-03-05💬 cs.CL

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

本文提出了名为 SemKey 的新框架，通过解耦的情感、主题、长度和惊奇度语义目标及基于信号引导的注意力机制，有效解决了脑电（EEG）到文本解码中的语义偏差、信号忽视及 BLEU 评估陷阱问题，显著提升了生成内容的真实性和多样性。

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

How does fine-tuning improve sensorimotor representations in large language models?

该研究通过表示相似性分析证明，针对特定任务的微调能够有效弥合大语言模型的“具身鸿沟”，使其内部表征向更接地气的模式转变，且这种提升虽在不同语言和感官维度间具有鲁棒性，却高度依赖于学习目标而无法在不同任务格式间迁移。

Minghua Wu, Javier Conde, Pedro Reviriego + 1 more2026-03-05🤖 cs.AI

Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO

该论文提出了一种基于对比学习的逆直接偏好优化（CoIPO）方法，通过最小化模型在干净提示与噪声提示下输出 logits 的差异来增强大语言模型的内在鲁棒性，并在自建的 NoisyPromptBench 基准测试中证明了其优于现有最先进方法的性能。

Xin Yang, Letian Li, Abudukelimu Wuerkaixi + 5 more2026-03-05🤖 cs.AI

M-QUEST -- Meme Question-Understanding Evaluation on Semantics and Toxicity

本文提出了名为 M-QUEST 的语义框架与基准数据集，旨在通过涵盖文本、视觉、背景知识及毒性评估等十个关键维度，系统性地评估大型语言模型在理解网络迷因语义及毒性方面的常识推理能力。

Stefano De Giorgis, Ting-Chih Chen, Filip Ilievski2026-03-05🤖 cs.AI

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

该研究通过对比中文到阿拉伯语、希腊语到弗拉芒语两组不同手语对，利用 Google Mediapipe 提取特征并结合 MLP 与 GRU 架构进行实验，证实了基于象似性（Iconicity）的跨语言迁移学习能显著提升手语识别性能（阿拉伯语提升 7.02%，弗拉芒语提升 1.07%）。

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

Retcon -- a Prompt-Based Technique for Precise Control of LLMs in Conversations

本文提出了一种名为 Retcon 的少样本提示技术，旨在实现对多轮对话中大型语言模型行为的逐轮精确控制，且其表现显著优于零样本和传统少样本提示方法。

David Kogan, Sam Nguyen, Masanori Suzuki + 1 more2026-03-05💬 cs.CL

Quantum-Inspired Self-Attention in a Large Language Model

该论文首次将一种量子启发的自注意力机制（QISA）集成到 GPT-1 的自回归语言建模流程中，实验表明其在字符错误率、词错误率和交叉熵损失等指标上显著优于标准自注意力机制，尽管推理时间仅增加了 2.6 倍。

Nikita Kuznetsov, Niyaz Ismagilov, Ernesto Campos2026-03-05⚛️ quant-ph

Automated Concept Discovery for LLM-as-a-Judge Preference Analysis

该论文提出了一种基于稀疏自编码器的自动化概念发现方法，用于分析大语言模型作为评判者时的偏好驱动因素，不仅验证了已知偏差，还揭示了其在拒绝敏感请求、强调共情与具体性以及学术和法律咨询等方面的系统性新趋势。

James Wedgwood, Chhavi Yadav, Virginia Smith2026-03-05🤖 cs.AI

From We to Me: Theory Informed Narrative Shift with Abductive Reasoning

该论文提出了一种基于社会科学与溯因推理的神经符号方法，通过自动提取规则引导大语言模型在保持原意一致性的同时，高效实现从“我们”到“我”等叙事视角的转换，并在多项实验中显著优于零样本基线。

Jaikrishna Manojkumar Patil, Divyagna Bavikadi, Kaustuv Mukherji + 5 more2026-03-05🤖 cs.AI

DIALEVAL: Automated Type-Theoretic Evaluation of LLM Instruction Following

本文提出了 DIALEVAL 框架，通过双智能体协作将指令分解为类型化谓词并应用差异化的满足性语义，从而实现了比现有基线更准确且与人类判断高度一致的大语言模型指令遵循自动化评估。

Nardine Basta, Dali Kaafar2026-03-05🤖 cs.AI

Can Large Language Models Derive New Knowledge? A Dynamic Benchmark for Biological Knowledge Discovery

本文提出了 DBench-Bio，这是一个面向生物医学领域的动态自动化基准，旨在通过月度更新的权威文献数据构建问答对，以解决现有静态基准的数据污染问题并有效评估大语言模型发现新知识的能力。

Chaoqun Yang, Xinyu Lin, Shulin Li + 4 more2026-03-05🤖 cs.AI