A Rigorous, Tractable Measure of Model Complexity
本文提出了一种基于输入梯度相似性的严格且计算高效的模型复杂度度量,该度量统一了多种现有指标,并为跨多种模型架构的双下降现象提供了新的见解。
原作者已查阅我们通俗解释的论文。
本页收录的每篇论文,都有至少一位原作者阅读并参与了我们的通俗解释——或是确认其准确无误,或是提出修正意见并由我们随后采纳。作者的确认并不等同于对每一句话的正式背书,但说明该解释已经过论文作者的审视。
606 篇论文已由作者审阅 · 241–250 / 606
本文提出了一种基于输入梯度相似性的严格且计算高效的模型复杂度度量,该度量统一了多种现有指标,并为跨多种模型架构的双下降现象提供了新的见解。
本文提出了一种分层 KV 缓存架构,通过在线计算误差界来触发自适应精度选择与确定性 FP16 回退,从而实现运行时认证的有界误差量化注意力,在保持长上下文大语言模型推理高压缩率的同时,确保可恢复至精确的稠密注意力输出。
本研究将亚巨星 TOI-5882 确定为行星吞噬的强有力候选者,其显著锂丰度增强为证,模型表明这可能源于吞噬了一颗质量介于超级地球与海王星之间的行星。
本文介绍了 BALLAST,这是一种贝叶斯主动学习框架,通过结合前瞻性轨迹预测和一种名为 VaSE 的新型高效高斯过程推断方法,优化拉格朗日海流浮标的布放位置,以推断随时间变化的海洋矢量场。
本文介绍了 Sutra,一种纯函数式编程语言,它将符号向量架构操作编译为融合的 PyTorch 张量图,使得程序能够在各种冻结的嵌入基底上实现完美的解码精度,并通过反向传播进行训练,同时保持完全可读并可作为源代码重新编译。
本文提出了一种面向云原生 ELT 流水线的统一多层测试框架,该框架集成了编排级验证、声明式 dbt 测试以及由大语言模型生成的语义测试,并通过受控实验证明,该方法在保持操作实用性的同时,相较于人工基线实现了异常检测能力 128.57% 的提升。
本文介绍了 torchtune,这是一个原生 PyTorch 库,旨在通过优先考虑模块化、透明性和可扩展性来简化大语言模型的后训练生命周期,从而在保持竞争力和内存效率的同时实现高效的微调与快速的研究迭代。
本文提出了一种新颖的模糊卷积神经网络(FCNN)框架,该框架将表格数据转换为基于模糊隶属度的图像,以有效利用深度学习进行分类,在复杂的噪声数据集上展现出与传统机器学习算法相当或更优的性能。
本文提出黑洞作为时空热力学自由度的凝聚体,为它们的质量、熵和内部结构提供了一种连贯的解释,这一解释得到了近期黑洞并合观测的支持。
本文利用魏尔斯特拉斯椭圆函数给出了具有任意参数的相干耦合器的完整解析解,将詹森耦合器识别为一种特例,并建立了从三模简并四波混频系统到两模耦合器的投影,从而揭示了其与可积参数过程及克罗内克θ函数之间更深层的联系。