Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution
本文提出了名为 Med-V1 的三参数十亿小语言模型家族,该模型通过高质量合成数据训练,在零样本生物医学证据归因任务中不仅大幅超越基线模型且性能媲美前沿大模型,同时具备高效、可解释及可扩展的优势,能够有效检测幻觉并识别临床指南中的证据误用。
1212 篇论文
本文提出了名为 Med-V1 的三参数十亿小语言模型家族,该模型通过高质量合成数据训练,在零样本生物医学证据归因任务中不仅大幅超越基线模型且性能媲美前沿大模型,同时具备高效、可解释及可扩展的优势,能够有效检测幻觉并识别临床指南中的证据误用。
本文提出了名为 PersianPunc 的大规模波斯语标点恢复数据集,并基于 ParsBERT 模型构建了高效且精准的标点恢复方法,有效克服了大型语言模型在该任务中过度修正和计算成本高的问题。
该论文介绍了为支持民主参与而构建的多语种(西班牙语、加泰罗尼亚语和意大利语)人类标注语料库,其中包含由专家将原始文本改写为易读(E2R)格式的高质量数据,旨在填补自动文本简化领域特别是低资源语言中高质量训练与评估资源的空白。
本文研究了模型融合技术在多领域自动语音识别(ASR)中的应用潜力与局限,通过评估 11 种融合算法并提出了基于奇异值提升的 BoostedTSV-M 新算法,成功在单一模型中实现了优于全量微调的欧洲葡萄牙语领域性能,同时保持了良好的分布外泛化能力。
本文提出了 DiSCTT 框架,通过基于推理轨迹共识的实例级不确定性估计,动态为高共识样本分配监督微调策略、为低共识样本分配一致性正则化的强化学习策略,从而在数学和通用推理任务中实现了比现有基线更高效、稳定且准确的测试时适应。
该论文提出了一种名为 Progressive Residual Warmup (ProRes) 的新方法,通过让深层网络等待浅层网络稳定后再逐步激活其残差连接,从而显著提升了语言模型预训练的稳定性、收敛速度及下游任务性能。
该研究提出了一种结合思维链推理与邻词分析的探索 - 分析 - 消歧框架,证明通过精心设计的推理导向微调,参数量低于 40 亿的低参数大语言模型在词义消歧任务中不仅能超越中等参数基线及 GPT-4-Turbo 等高性能模型,还能在显著降低计算与能耗成本的同时实现卓越的跨域泛化能力。
该论文通过复现思想注入检测范式,揭示大语言模型的自我反思机制由基于提示异常的概率推断和无法识别具体语义内容的直接内部状态访问两种可分离机制组成,这一发现与哲学及心理学中的主流理论相一致。
该论文提出了一种统一的框架,通过引入基于共享字符空间的字节级序贯蒙特卡洛算法,解决了多语言模型集成中因词汇表不匹配和局部归一化导致的采样偏差问题,从而实现了从多种聚合函数定义的 -集成分布中进行一致且高效的采样,并在结构化文本生成任务中显著提升了性能。
本文提出了分布式部分信息谜题(DPIP)及其多模态数据集,旨在研究多主体协作中的共同构建问题,并通过对比大语言模型与基于动态认知逻辑的公理管道,揭示了当前大模型在追踪任务进展和信念状态方面仍面临显著挑战。
本文针对 Blackwell 架构(如 B200)中张量核心与其他功能单元性能扩展不对称的挑战,通过算法与内核流水线协同设计提出了 FlashAttention-4,利用全异步 MMA 操作、软件模拟指数函数及新型内存访问策略,在显著提升推理效率的同时,采用 CuTe-DSL 实现了编译速度与表达能力的双重突破。
该论文提出了 DEBISS 语料库,这是一个包含口语化、个人化及半结构化辩论数据的集合,并提供了语音转写、说话人分离、论点挖掘及辩论者质量评估等丰富的自然语言处理任务标注,以解决现有辩论语料稀缺且难以涵盖多样辩论形式的问题。
本文介绍了从孟加拉国国家课程与教科书委员会出版的 50 本教科书中提取的大规模孟加拉语问答数据集 NCTB-QA,该数据集包含大量可回答与不可回答问题及对抗性样本,并通过基准测试证明了针对特定领域微调 Transformer 模型在低资源语言阅读理解任务中的显著性能提升。
该论文提出了无需检索的事实核查新任务与评估框架,揭示了利用模型内部表示优于基于 logits 的方法,并据此提出了性能领先的 INTRA 方法,旨在通过挖掘 LLM 参数化知识来提升事实核查的可扩展性与通用性。
该论文通过对比激活探测与思维链监控,揭示了推理模型中存在“表演性思维链”现象(即模型在早期已确信答案却继续生成),并发现探测引导的早期退出机制能在保持准确率的同时显著减少 Token 消耗。
该论文利用中国开发者训练的对敏感政治话题进行审查的开源大语言模型(如 Qwen3)作为自然测试平台,评估了多种诚实性 elicitation 和谎言检测技术,发现移除聊天模板、少样本提示及微调等方法能有效提升模型回答真实性的比例,且部分技术可迁移至前沿模型,但没有任何单一技术能完全消除虚假回答。
该论文通过系统实验揭示了 Transformer 模型中“巨大激活”与“注意力汇”虽常共现但功能迥异,前者作为隐式参数全局运作,后者局部调节注意力分布,且两者的共现主要归因于预归一化架构设计。
本文提出了 POET-X,一种基于正交变换的内存高效大语言模型训练框架,它在保持原有 POET 方法训练稳定性和泛化能力的同时,显著降低了计算开销与显存占用,从而实现了在单张 GPU 上预训练十亿参数级模型。
本文提出了一种基于扩散模型的新方法,通过融合多尺度文本 - 视觉特征来解决开放词汇伪装实例分割(OVCIS)中目标与背景边界模糊的难题,从而实现对未见类别伪装目标的有效分割。
本文提出了 RAEE 框架,通过将早期退出建模为分布预测问题并利用检索增强技术获取相似数据的退出信息,在显著加速大语言模型推理的同时实现了跨任务的鲁棒零样本性能提升。