Automatic identification of diagnosis from hospital discharge letters via weakly supervised Natural Language Processing
本文提出了一种弱监督自然语言处理流水线,该流水线通过利用句子提取、领域特定语义嵌入和两级聚类来生成弱标签,从而自动识别意大利语医院出院信中的患者诊断,在显著减少人工标注需求的同时,实现了与全监督模型相当的性能。
8070 篇论文
从碳到氯,这条横跨元素周期表的连线揭示了化学键合中一种独特而微妙的张力。这一领域的研究聚焦于碳与氯原子间的相互作用,深入探讨它们如何影响分子的稳定性、反应活性以及在材料科学中的独特应用。这些基础发现往往成为理解复杂有机合成路径和新型功能材料设计的关键钥匙。
Gist.Science 团队持续追踪 arXiv 上发布的最新预印本,确保每一篇关于 C—Cl 键的前沿研究都能被及时捕捉。我们不仅提供详尽的技术摘要,更将复杂的实验数据与理论推导转化为通俗易懂的科普解读,让科学探索的成果真正触手可及。
以下是该领域最新发表的预印论文列表,涵盖了从理论计算到实验验证的最新进展。
本文提出了一种弱监督自然语言处理流水线,该流水线通过利用句子提取、领域特定语义嵌入和两级聚类来生成弱标签,从而自动识别意大利语医院出院信中的患者诊断,在显著减少人工标注需求的同时,实现了与全监督模型相当的性能。
Sentinel 是一个轻量级、无需训练的上下文压缩框架,它通过解码冻结大语言模型(LLM)在推理时的注意力模式,仅需单次前向传播即可实现高达 5 倍压缩率的高效、高性能检索增强生成。
本文提出了一个以人为本的框架,用于分析和衡量研究写作中的文化规范,通过跨学科访谈来识别不同研究文化之间的关键风格与修辞差异,并论证这些指标如何揭示大型语言模型倾向于使写作同质化,而非适应特定的文化语境。
本文介绍了 UniCR,这是一个统一的框架,它将异构的不确定性证据融合为校准后的正确性概率,通过原则性的拒绝机制来强制执行用户指定的误差预算,从而在无需对基座模型进行微调的情况下,提高大型语言模型的可信度并减少幻觉。
本文表明,在长文本大语言模型(LLM)对话中,存储逐字对话块的效果显著优于由大语言模型提取的结构化人工制品,因为这种有损的蒸馏过程会丢弃原始文本所保留的关键细节。
本文介绍了残差上下文扩散(Residual Context Diffusion, RCD),这是一种新颖的模块,它将丢弃的标记表示回收为上下文残差,以极小的额外计算和训练数据量,显著提升扩散大语言模型(dLLMs)的准确性与效率。
本文介绍了 SciDef,这是一个包含 DefExtra 基准测试、DefSim 相似性判定以及一个用于推进自动化科学定义提取的开源大语言模型流水线的综合资源套件,同时指出相关性感知过滤是实现全自动系统的主要挑战。
本文提出了深度密集探索(Deep Dense Exploration, DDE),这是一种被实例化为 DEEP-GRPO 的新颖策略,通过识别并密集重采样失败轨迹中的“枢轴”状态,来增强大语言模型的强化学习,从而高效地发现高质量解,进而使该方法在数学推理基准测试上优于现有的 GRPO 和基于树的方法。
本文通过发布一个包含超过 110 万个步骤的大规模、跨组织的基准测试,并引入一种结合了精确、词汇和语义方法的改写鲁棒检测器,以识别并量化显著的可消除冗余,从而解决了行为驱动开发中重复 Gherkin 步骤的维护成本问题。
本文提出了一种能够兼容大小字符串的间接计算模型与间接形式化方法,旨在通过一个利用中国信息数据的原型设计,优化协作智能计算系统中从数据中心到知识中心的云计算过程。