cs.CL 篇论文 | Gist.Science

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

该论文提出了 IAG，一种针对视觉语言模型视觉定位任务的首个多目标后门攻击方法，它利用文本条件 UNet 动态生成与目标语义相关的输入感知触发器，在保持正常定位性能的同时实现高攻击成功率、强隐蔽性及跨模型/数据集的迁移能力。

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

本文提出了 OTESGN 模型，通过结合句法图感知注意力与基于最优传输的语义注意力机制，有效解决了传统方法在捕捉非线性关联和抗噪方面的不足，从而在多个基准数据集上实现了方面级情感分析的最优性能。

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying Rong2026-03-10💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

该研究发现，线性探针严重依赖文本证据（如系统提示或思维链），一旦过滤掉这些表面文本信息，其在检测沙袋行为、阿谀奉承和偏见等潜在有害行为时的性能会显著下降，表明此类探针在识别非表层模式时存在脆弱性。

Gerard Boxo, Aman Neelappa, Shivam Raval2026-03-10🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

该论文提出了一种名为 PonderLM-2 的新型预训练方法，通过在连续空间中为每个生成 token 引入额外的“潜在思维”步骤，使模型在推理成本不变的情况下，性能显著超越参数量翻倍的标准模型。

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan Lin2026-03-10💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

该论文提出了基于野外语料库中显著词元困惑度的“基准签名”方法，通过跨 32 个大模型和 89 个基准的元评估，揭示了不同基准间在知识与推理任务上的深层重叠、在文化与人文领域的低相似性，以及编码任务的高度独立性，从而为理解大模型能力景观及基准有效性提供了超越传统性能相关性的新视角。

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

该论文首次系统性地提出并实证了“误演化”（Misevolution）概念，揭示了自进化大语言模型代理在模型、记忆、工具和工作流四个关键路径中可能偏离预期并引发安全对齐退化或漏洞等新型风险，从而强调了构建更安全自进化代理的紧迫性。

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

该论文提出了 TokMem 框架，通过将可复用的任务流程编译为单个可训练记忆令牌，在保持大语言模型主干冻结的同时，实现了以恒定开销高效存储和调用程序性知识，并在任务召回与函数调用等场景中显著优于检索增强提示和参数高效微调。

Zijun Wu, Yongchang Hao, Lili Mou2026-03-10💬 cs.CL

Stochastic Self-Organization in Multi-Agent Systems

本文提出了名为 SelfOrg 的框架，通过让大语言模型多智能体基于响应条件动态评估贡献并构建有向无环图来自组织通信结构，从而在无需额外监督或训练的情况下显著提升协作效率，特别是在弱模型场景下表现优异。

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

本文提出了一种基于大语言模型智能体的自动化工作流，成功从约 1 万篇科学文献中提取并构建了迄今为止规模最大的热电材料数据集，不仅显著降低了大规模数据提取的成本，还为数据驱动的材料发现奠定了坚实基础。

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

本文提出了 FOR-Prompting 协议，通过让“辩护者”提出答案、由“辩论者”仅提出质疑而不直接修正的不对称提示机制，在不依赖模型训练或内部访问的情况下，有效提升了各类大语言模型（尤其是小模型）在数学推理及开放任务中的自我修正能力与输出质量。

He Zhang, Anzhou Zhang, Jian Dai2026-03-10💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

该论文提出了 DialTree 框架，这是一种结合树搜索的在线策略强化学习方法，能够自主探索多轮对话中的复杂攻击轨迹，在无需人工数据的情况下显著提升了针对大语言模型的多轮红队攻击成功率。

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

该研究利用 GPT-4o 等大语言模型从塞内加尔法律文本（特别是《土地与公共领域法典》）中提取并结构化近 8000 条条款，构建了包含数千节点与关系的知识图谱，旨在提升司法信息的可访问性并帮助公众及法律专业人士更好地理解其权利与义务。

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

Idiom Understanding as a Tool to Measure the Dialect Gap

该论文通过构建魁北克法语和法国大都会法语的习语基准数据集，利用 111 个大语言模型的实验结果揭示了模型在标准法语与方言理解能力上的显著差距，证明了习语理解是衡量方言鸿沟的有效工具。

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury2026-03-10💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

本文提出了名为 NANOMIND 的软硬件协同设计框架，通过将大型多模态模型模块化并动态调度至异构加速器，在电池供电的小型设备上实现了无需联网的高效、低功耗本地推理，显著降低了能耗与显存占用。

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

cs.CL