cs.CL 篇论文 | Gist.Science

Query-focused and Memory-aware Reranker for Long Context Processing

该论文提出了一种基于大语言模型注意力分数的轻量级查询感知与记忆感知重排序框架，无需标度监督即可利用列表式信息实现高效且强大的长上下文检索性能，并在 LoCoMo 等多个基准测试中取得了新的最先进成果。

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

本文提出了“缺失即设计”（MBD）框架，通过结合结构化表征学习与可验证的参数修改流程，实现了多模态情感分析中特定模态信息的可撤销删除，在保障用户隐私自主权的同时维持了模型的高效预测性能。

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

本文介绍了包含 56 个植入隐藏行为模型的基准测试 AuditBench，通过自主调查代理评估了多种对齐审计技术的有效性，揭示了工具在代理环境中的性能差距、黑盒工具的优势以及不同训练方法对审计难度的影响。

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

该论文提出了名为 SkillCraft 的基准测试，旨在评估大语言模型智能体在长程工作流中抽象和复用高阶工具组合（即“技能”）的能力，并通过引入轻量级评估协议验证了技能积累与复用能显著提升执行效率（最高减少 80% 的 Token 消耗）并增强任务成功率。

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

PonderLM-3 提出了一种基于可微分掩码的预训练框架，通过实现训练与推理的一致性，使模型能够以自监督方式自适应地为每个令牌分配额外的推理计算资源，从而在同等计算成本下显著降低困惑度并提升下游任务性能。

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin2026-03-11💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

该论文通过受控的因子实验设计，实证研究了不同规模与类型的语言模型在 Verilog 代码生成任务中与提示工程策略（如结构化输出、思维链及进化优化）的交互规律，揭示了通用趋势与特定模型 - 提示组合间的差异。

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh Karri2026-03-11💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

本文提出了一种完全本地化、无需调用外部 API 的端到端流水线，利用本地大语言模型将讲座 PDF 转换为多项选择题，并通过确定性质量控制机制确保生成内容的安全性与隐私性，最终发布了包含 24 道经过严格验证的试题数据集。

Seine A. Shintani2026-03-11💻 cs

Fish Audio S2 Technical Report

Fish Audio S2 是一款开源的多说话人、多轮次且支持自然语言指令控制的高级文本转语音系统，其通过多阶段训练与数据流水线实现了生产级流式推理（RTF 0.195，首字延迟<100ms），并公开了模型权重、微调代码及基于 SGLang 的推理引擎。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

该论文提出了 MASEval 框架，旨在填补现有基准测试仅关注模型而忽视系统实现（如拓扑结构和编排逻辑）的空白，通过系统级评估证明框架选择对多智能体系统性能的影响与模型选择同等重要。

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

该论文利用塞尔维亚语双文制（拉丁字母与西里尔字母）作为受控实验环境，发现稀疏自编码器（SAE）在 Gemma 模型中学习的特征能够超越完全不同的分词方式，捕捉到比表面形式更抽象的语义含义，且这种脚本不变性随模型规模增大而增强。

Sripad Karne2026-03-11💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

该论文提出了名为 MultiGraSCCo 的多语言匿名化基准，通过机器翻译方法在十种语言中构建了包含 2500 多个个人标识符注释的合成医疗数据集，旨在解决敏感数据获取难题并支持匿名化系统的开发与评估。

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

该研究提出了一种无需电化学标签的文本驱动筛选策略，通过比较基于 Word2Vec 和 Transformer 的组分嵌入方法，成功在 15 种材料库中利用“导电性”和“介电性”概念方向有效过滤了复杂的组合电催化剂候选物，其中轻量级的 Word2Vec 基线模型在减少候选数量的同时保持了优异的筛选性能。

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

本文提出了名为 ConFu 的新型推测采样框架，通过引入“思考未来”的机制（如思考令牌、软提示及动态混合专家模型），使草稿模型能够利用来自目标模型的未来导向信号，从而在几乎不增加成本的情况下显著提升了 Llama-3 模型的令牌接受率和生成速度。

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun2026-03-11💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

本文介绍了 SciTaRC 基准，该基准通过专家编写的科学论文表格数据问答任务，揭示了当前最先进的 AI 模型（包括 Llama-3.3-70B）因存在普遍的“执行瓶颈”而在深度语言推理和复杂计算方面表现不佳，导致在至少 23% 的任务上失败。

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本文提出了 PathoScribe 框架，通过统一的检索增强大语言模型技术，将静态的病理报告档案转化为支持自然语言检索、自动队列构建及临床推理的“活体图书馆”，显著提升了病理数据的检索效率与临床决策价值。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

cs.CL