Highly Efficient and Effective LLMs with Multi-Boolean Architectures
该论文提出了一种基于多核布尔参数的新型框架,首次实现了大语言模型在布尔域内的直接微调,从而在消除全精度潜在权重依赖的同时,显著降低了复杂度并提升了性能。
335 篇论文
该论文提出了一种基于多核布尔参数的新型框架,首次实现了大语言模型在布尔域内的直接微调,从而在消除全精度潜在权重依赖的同时,显著降低了复杂度并提升了性能。
本文提出了一种基于神经主动流形非线性降维的方法,通过将高维输入空间映射至一维潜空间进行分层采样,从而有效解决了高维模型不确定性传播中的方差缩减难题。
本文针对现有图生成模型因独立插值导致路径不光滑的问题,提出了一种基于 Bures-Wasserstein 流匹配的 BWFlow 框架,通过马尔可夫随机场建模节点与边的联合演化,构建了平滑的概率路径,从而显著提升了训练收敛性、采样效率及生成性能。
该研究提出了一种快速评估大语言模型排名系统鲁棒性的方法,发现仅移除极少量(如 0.003%)的偏好数据即可改变 Chatbot Arena 等平台的榜首模型,且专家标注的 MT-bench 排名比众包或 LLM 裁判的排名更具鲁棒性。
本文提供了浅层神经网络在梯度下降训练过程中向高斯过程收敛的定量界限,通过显式上界证明了网络输出与高斯近似之间的二次 Wasserstein 距离随网络宽度呈多项式衰减,并量化了架构参数与训练动态对收敛误差的影响。
本文针对基于 SGD 训练的共形化分位数和中位数回归,在温和假设下建立了预测集长度与最优区间长度偏差的非渐近界,揭示了效率对训练集大小、校准集大小及误覆盖率的联合依赖关系,并识别了不同覆盖率区间下的收敛率相变现象,从而为数据分配提供了理论指导。
本文通过理论分析揭示了数据几何在过参数化 ReLU 神经网络泛化中的核心作用,证明了当数据难以被 ReLU 激活阈值“打散”时,梯度下降倾向于学习共享模式从而实现良好泛化,而数据若易被打散(如集中在球面上)则会导致过拟合。
该论文针对线性最小二乘模型提出了一种严谨的统计推断框架,通过推导精确的影响力公式并识别最大影响力的极值分布(弗雷歇分布或甘贝尔分布),实现了对异常高影响力数据子集的假设检验,从而取代了以往依赖启发式方法的做法。
本文提出了一种名为 SACP 的新方法,通过将多个预测器的非一致性分数转化为 e 值并利用对称聚合函数进行融合,从而在保持有效性的同时显著提升了预测集的效率与质量。
本文提出了一种基于贝叶斯非参数先验的有限混合模型方法,通过建立分量分布的可识别性条件与后验收缩理论,并开发高效 MCMC 算法,实现了对复杂潜变量子总体分布的有效学习,其收敛速率显著优于传统去卷积方法。
该论文建立了算子学习的极小极大风险理论,证明了对于具有有限正则性的算子,无论假设其满足利普希茨条件还是赫尔德光滑性,在通用设定下均存在样本复杂度灾难,即极小极大风险无法随样本量呈代数级衰减。
本文提出了一种名为 Latent-IMH 的高效采样方法,通过利用计算廉价的近似算子生成潜在变量并结合精确算子进行修正,成功将计算成本转移至离线阶段,从而在贝叶斯线性逆问题中显著提升了采样效率并优于现有主流方法。
该论文提出了一种将 Transformer 层解释为优化算法迭代的变分框架,并基于此设计了名为 YuriiFormer 的 Nesterov 加速架构,其在 TinyStories 和 OpenWebText 数据集上均优于 nanoGPT 基线,证明了优化理论洞察能转化为实际性能提升。
本文针对非平稳数据流中的在线共形预测问题,提出了结合漂移检测的自适应算法(分别适用于预训练分数和在线训练分数场景),并证明了其在训练条件累积遗憾上达到了极小极大最优性。
本文提出了一种基于广义双线性偏好模型的正则化在线强化学习人类反馈框架,通过利用强凸性和偏好矩阵的反对称性,证明了贪婪策略的间隙误差界,并设计了两种算法分别实现了与正则化强度无关的多对数遗憾界以及在高维场景下首个统计高效的遗憾界。
该论文提出了一种基于 Z-Gromov-Wasserstein 距离和 Score 共形化分位数回归(SCQR)的共形预测框架,旨在为结构化图输出(如分子识别)提供分布无关的覆盖率保证及自适应预测集。
该论文提出了一种名为 FreST Loss 的频域增强训练目标,通过联合傅里叶变换将监督信号扩展至联合时空频谱,从而有效解耦复杂的时空依赖关系并降低估计偏差,在多种真实数据集上显著提升了现有模型的预测性能。
本文提出了一种名为平衡信息神经网络(EINNs)的新型深度学习方法,该方法通过利用候选平衡态作为输入来逆向推断系统参数,从而有效检测复杂非线性动力学系统中的临界阈值和突变分岔点。
本文提出了一种基于字典的模式熵(DPE)框架,通过融合算法信息论与香农信息论,利用最小不确定性准则从时序符号数据中推断因果方向并识别驱动效应的关键子模式,在多种合成系统及真实生物生态数据中展现出优于或媲美现有方法的鲁棒性与可解释性。
本文从概率机器学习视角出发,通过贝叶斯分层负二项回归与基于奇数块分解的生成式近似两种模型,对 范围内的 Collatz 总停止时间进行了建模分析,发现低阶模结构(如 )是解释其异质性的关键因素,且统计回归模型在预测性能上优于生成式近似。