An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

该研究提出了一种结合思维链推理与邻词分析的探索 - 分析 - 消歧框架,证明通过精心设计的推理导向微调,参数量低于 40 亿的低参数大语言模型在词义消歧任务中不仅能超越中等参数基线及 GPT-4-Turbo 等高性能模型,还能在显著降低计算与能耗成本的同时实现卓越的跨域泛化能力。

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Ensembling Language Models with Sequential Monte Carlo

该论文提出了一种统一的框架,通过引入基于共享字符空间的字节级序贯蒙特卡洛算法,解决了多语言模型集成中因词汇表不匹配和局部归一化导致的采样偏差问题,从而实现了从多种聚合函数定义的 ff-集成分布中进行一致且高效的采样,并在结构化文本生成任务中显著提升了性能。

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

本文针对 Blackwell 架构(如 B200)中张量核心与其他功能单元性能扩展不对称的挑战,通过算法与内核流水线协同设计提出了 FlashAttention-4,利用全异步 MMA 操作、软件模拟指数函数及新型内存访问策略,在显著提升推理效率的同时,采用 CuTe-DSL 实现了编译速度与表达能力的双重突破。

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

本文介绍了从孟加拉国国家课程与教科书委员会出版的 50 本教科书中提取的大规模孟加拉语问答数据集 NCTB-QA,该数据集包含大量可回答与不可回答问题及对抗性样本,并通过基准测试证明了针对特定领域微调 Transformer 模型在低资源语言阅读理解任务中的显著性能提升。

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

该论文利用中国开发者训练的对敏感政治话题进行审查的开源大语言模型(如 Qwen3)作为自然测试平台,评估了多种诚实性 elicitation 和谎言检测技术,发现移除聊天模板、少样本提示及微调等方法能有效提升模型回答真实性的比例,且部分技术可迁移至前沿模型,但没有任何单一技术能完全消除虚假回答。

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI