cs.CL 篇论文 | Gist.Science

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

本文提出了名为 Med-V1 的三参数十亿小语言模型家族，该模型通过高质量合成数据训练，在零样本生物医学证据归因任务中不仅大幅超越基线模型且性能媲美前沿大模型，同时具备高效、可解释及可扩展的优势，能够有效检测幻觉并识别临床指南中的证据误用。

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

本文提出了名为 PersianPunc 的大规模波斯语标点恢复数据集，并基于 ParsBERT 模型构建了高效且精准的标点恢复方法，有效克服了大型语言模型在该任务中过度修正和计算成本高的问题。

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

该论文介绍了为支持民主参与而构建的多语种（西班牙语、加泰罗尼亚语和意大利语）人类标注语料库，其中包含由专家将原始文本改写为易读（E2R）格式的高质量数据，旨在填补自动文本简化领域特别是低资源语言中高质量训练与评估资源的空白。

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

本文研究了模型融合技术在多领域自动语音识别（ASR）中的应用潜力与局限，通过评估 11 种融合算法并提出了基于奇异值提升的 BoostedTSV-M 新算法，成功在单一模型中实现了优于全量微调的欧洲葡萄牙语领域性能，同时保持了良好的分布外泛化能力。

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

本文提出了 DiSCTT 框架，通过基于推理轨迹共识的实例级不确定性估计，动态为高共识样本分配监督微调策略、为低共识样本分配一致性正则化的强化学习策略，从而在数学和通用推理任务中实现了比现有基线更高效、稳定且准确的测试时适应。

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

Progressive Residual Warmup for Language Model Pretraining

该论文提出了一种名为 Progressive Residual Warmup (ProRes) 的新方法，通过让深层网络等待浅层网络稳定后再逐步激活其残差连接，从而显著提升了语言模型预训练的稳定性、收敛速度及下游任务性能。

Tianhao Chen, Xin Xu, Lu Yin + 4 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

该研究提出了一种结合思维链推理与邻词分析的探索 - 分析 - 消歧框架，证明通过精心设计的推理导向微调，参数量低于 40 亿的低参数大语言模型在词义消歧任务中不仅能超越中等参数基线及 GPT-4-Turbo 等高性能模型，还能在显著降低计算与能耗成本的同时实现卓越的跨域泛化能力。

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Dissociating Direct Access from Inference in AI Introspection

该论文通过复现思想注入检测范式，揭示大语言模型的自我反思机制由基于提示异常的概率推断和无法识别具体语义内容的直接内部状态访问两种可分离机制组成，这一发现与哲学及心理学中的主流理论相一致。

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

该论文提出了一种统一的框架，通过引入基于共享字符空间的字节级序贯蒙特卡洛算法，解决了多语言模型集成中因词汇表不匹配和局部归一化导致的采样偏差问题，从而实现了从多种聚合函数定义的 $f$ -集成分布中进行一致且高效的采样，并在结构化文本生成任务中显著提升了性能。

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

本文提出了分布式部分信息谜题（DPIP）及其多模态数据集，旨在研究多主体协作中的共同构建问题，并通过对比大语言模型与基于动态认知逻辑的公理管道，揭示了当前大模型在追踪任务进展和信念状态方面仍面临显著挑战。

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

本文针对 Blackwell 架构（如 B200）中张量核心与其他功能单元性能扩展不对称的挑战，通过算法与内核流水线协同设计提出了 FlashAttention-4，利用全异步 MMA 操作、软件模拟指数函数及新型内存访问策略，在显著提升推理效率的同时，采用 CuTe-DSL 实现了编译速度与表达能力的双重突破。

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

该论文提出了 DEBISS 语料库，这是一个包含口语化、个人化及半结构化辩论数据的集合，并提供了语音转写、说话人分离、论点挖掘及辩论者质量评估等丰富的自然语言处理任务标注，以解决现有辩论语料稀缺且难以涵盖多样辩论形式的问题。

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

本文介绍了从孟加拉国国家课程与教科书委员会出版的 50 本教科书中提取的大规模孟加拉语问答数据集 NCTB-QA，该数据集包含大量可回答与不可回答问题及对抗性样本，并通过基准测试证明了针对特定领域微调 Transformer 模型在低资源语言阅读理解任务中的显著性能提升。

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

该论文提出了无需检索的事实核查新任务与评估框架，揭示了利用模型内部表示优于基于 logits 的方法，并据此提出了性能领先的 INTRA 方法，旨在通过挖掘 LLM 参数化知识来提升事实核查的可扩展性与通用性。

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

该论文通过对比激活探测与思维链监控，揭示了推理模型中存在“表演性思维链”现象（即模型在早期已确信答案却继续生成），并发现探测引导的早期退出机制能在保持准确率的同时显著减少 Token 消耗。

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

该论文利用中国开发者训练的对敏感政治话题进行审查的开源大语言模型（如 Qwen3）作为自然测试平台，评估了多种诚实性 elicitation 和谎言检测技术，发现移除聊天模板、少样本提示及微调等方法能有效提升模型回答真实性的比例，且部分技术可迁移至前沿模型，但没有任何单一技术能完全消除虚假回答。

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

该论文通过系统实验揭示了 Transformer 模型中“巨大激活”与“注意力汇”虽常共现但功能迥异，前者作为隐式参数全局运作，后者局部调节注意力分布，且两者的共现主要归因于预归一化架构设计。

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation

本文提出了 POET-X，一种基于正交变换的内存高效大语言模型训练框架，它在保持原有 POET 方法训练稳定性和泛化能力的同时，显著降低了计算开销与显存占用，从而实现了在单张 GPU 上预训练十亿参数级模型。

Zeju Qiu, Lixin Liu, Adrian Weller + 2 more2026-03-06🤖 cs.AI

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

本文提出了一种基于扩散模型的新方法，通过融合多尺度文本 - 视觉特征来解决开放词汇伪装实例分割（OVCIS）中目标与背景边界模糊的难题，从而实现对未见类别伪装目标的有效分割。

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

RAEE: A Robust Retrieval-Augmented Early Exit Framework for Efficient Inference

本文提出了 RAEE 框架，通过将早期退出建模为分布预测问题并利用检索增强技术获取相似数据的退出信息，在显著加速大语言模型推理的同时实现了跨任务的鲁棒零样本性能提升。

Lianming Huang, Shangyu Wu, Yufei Cui + 6 more2026-03-05💬 cs.CL

← 上一页下一页 →