Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

该论文提出了一种针对推测解码中草稿模型的字表剪枝方法,通过将字表选择建模为在最小覆盖率约束下平衡覆盖率与架构感知延迟的约束优化问题,利用树状贝叶斯优化高效探索帕累托前沿,从而在显著减小字表规模(最高达 97%)的同时提升了特定领域及通用任务的推理吞吐量并降低了延迟。

Ofir Ben Shoham2026-03-06🤖 cs.AI

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

该论文介绍了为支持民主参与而构建的多语种(西班牙语、加泰罗尼亚语和意大利语)人类标注语料库,其中包含由专家将原始文本改写为易读(E2R)格式的高质量数据,旨在填补自动文本简化领域特别是低资源语言中高质量训练与评估资源的空白。

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

本文研究了模型融合技术在多领域自动语音识别(ASR)中的应用潜力与局限,通过评估 11 种融合算法并提出了基于奇异值提升的 BoostedTSV-M 新算法,成功在单一模型中实现了优于全量微调的欧洲葡萄牙语领域性能,同时保持了良好的分布外泛化能力。

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

该研究提出了一种结合思维链推理与邻词分析的探索 - 分析 - 消歧框架,证明通过精心设计的推理导向微调,参数量低于 40 亿的低参数大语言模型在词义消歧任务中不仅能超越中等参数基线及 GPT-4-Turbo 等高性能模型,还能在显著降低计算与能耗成本的同时实现卓越的跨域泛化能力。

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Ensembling Language Models with Sequential Monte Carlo

该论文提出了一种统一的框架,通过引入基于共享字符空间的字节级序贯蒙特卡洛算法,解决了多语言模型集成中因词汇表不匹配和局部归一化导致的采样偏差问题,从而实现了从多种聚合函数定义的 ff-集成分布中进行一致且高效的采样,并在结构化文本生成任务中显著提升了性能。

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

本文针对 Blackwell 架构(如 B200)中张量核心与其他功能单元性能扩展不对称的挑战,通过算法与内核流水线协同设计提出了 FlashAttention-4,利用全异步 MMA 操作、软件模拟指数函数及新型内存访问策略,在显著提升推理效率的同时,采用 CuTe-DSL 实现了编译速度与表达能力的双重突破。

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL