cs.CL 篇论文 | Gist.Science

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

PonderLM-3 提出了一种基于可微分掩码的预训练框架，通过实现训练与推理的一致性，使模型能够以自监督方式自适应地为每个令牌分配额外的推理计算资源，从而在同等计算成本下显著降低困惑度并提升下游任务性能。

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan LinWed, 11 Ma💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

该论文通过受控的因子实验设计，实证研究了不同规模与类型的语言模型在 Verilog 代码生成任务中与提示工程策略（如结构化输出、思维链及进化优化）的交互规律，揭示了通用趋势与特定模型 - 提示组合间的差异。

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

本文提出了一种完全本地化、无需调用外部 API 的端到端流水线，利用本地大语言模型将讲座 PDF 转换为多项选择题，并通过确定性质量控制机制确保生成内容的安全性与隐私性，最终发布了包含 24 道经过严格验证的试题数据集。

Seine A. ShintaniWed, 11 Ma💻 cs

Fish Audio S2 Technical Report

Fish Audio S2 是一款开源的多说话人、多轮次且支持自然语言指令控制的高级文本转语音系统，其通过多阶段训练与数据流水线实现了生产级流式推理（RTF 0.195，首字延迟<100ms），并公开了模型权重、微调代码及基于 SGLang 的推理引擎。

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

该论文提出了 MASEval 框架，旨在填补现有基准测试仅关注模型而忽视系统实现（如拓扑结构和编排逻辑）的空白，通过系统级评估证明框架选择对多智能体系统性能的影响与模型选择同等重要。

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

该论文利用塞尔维亚语双文制（拉丁字母与西里尔字母）作为受控实验环境，发现稀疏自编码器（SAE）在 Gemma 模型中学习的特征能够超越完全不同的分词方式，捕捉到比表面形式更抽象的语义含义，且这种脚本不变性随模型规模增大而增强。

Sripad KarneWed, 11 Ma💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

该论文提出了名为 MultiGraSCCo 的多语言匿名化基准，通过机器翻译方法在十种语言中构建了包含 2500 多个个人标识符注释的合成医疗数据集，旨在解决敏感数据获取难题并支持匿名化系统的开发与评估。

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

该研究提出了一种无需电化学标签的文本驱动筛选策略，通过比较基于 Word2Vec 和 Transformer 的组分嵌入方法，成功在 15 种材料库中利用“导电性”和“介电性”概念方向有效过滤了复杂的组合电催化剂候选物，其中轻量级的 Word2Vec 基线模型在减少候选数量的同时保持了优异的筛选性能。

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

本文提出了名为 ConFu 的新型推测采样框架，通过引入“思考未来”的机制（如思考令牌、软提示及动态混合专家模型），使草稿模型能够利用来自目标模型的未来导向信号，从而在几乎不增加成本的情况下显著提升了 Llama-3 模型的令牌接受率和生成速度。

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou SunWed, 11 Ma💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

本文介绍了 SciTaRC 基准，该基准通过专家编写的科学论文表格数据问答任务，揭示了当前最先进的 AI 模型（包括 Llama-3.3-70B）因存在普遍的“执行瓶颈”而在深度语言推理和复杂计算方面表现不佳，导致在至少 23% 的任务上失败。

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

本文提出了 PathoScribe 框架，通过统一的检索增强大语言模型技术，将静态的病理报告档案转化为支持自然语言检索、自动队列构建及临床推理的“活体图书馆”，显著提升了病理数据的检索效率与临床决策价值。

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

本文提出了名为 VoxEmo 的综合基准，旨在通过引入分布感知软标签和提示词集成策略，评估语音大语言模型在跨语言、多语料库场景下对情感模糊性的建模能力及其与人类主观分布的契合度。

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

该论文提出了 BiCLIP 框架，通过利用少量锚点样本学习跨域图像特征间的规范几何变换，以极简的参数量实现了多模态特征的对齐，并在多个基准测试中取得了最先进的零样本域适应性能。

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

本文介绍了名为"Guardian"的端到端系统及其多模型流水线，该系统通过结合基于 QLoRA 的微调、任务专用大语言模型以及共识引擎，旨在以可审计的保守方式辅助失踪人员（特别是儿童）调查中的关键信息提取与搜索规划。

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

该论文提出了一种结合迭代代码本优化与完整溯源追踪的自动化主题分析框架，旨在解决临床定性数据处理中的可扩展性与可重复性挑战，并在多个数据集上验证了其相较于基线方法在代码复用性、分布一致性及专家主题对齐方面的显著优势。

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

该论文提出了一种基于置信度的自适应采样框架，通过分析单条推理轨迹中的中间状态特征来动态选择推理路径，在保持与多路径方法相当准确率的同时，显著降低了大语言模型链式推理的计算成本。

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

该研究介绍了一种名为 Sentinel 的自主 AI 代理，它利用模型上下文协议（MCP）对远程患者监测数据进行多步推理和情境化分诊，在紧急敏感性等关键指标上超越了人类临床医生，同时以极低的成本实现了可扩展的自动化监测，从而解决了以往远程患者监测试验因数据过载而失败的核心难题。

cs.CL