LookaheadKV: Fast and Accurate KV Cache Eviction by Glimpsing into the Future without Generation
LookaheadKV 提出了一种轻量级的 KV 缓存淘汰框架,通过引入参数高效模块直接预测未来重要性评分,在无需耗时的草稿生成前提下,实现了比现有方法更精准的淘汰效果并显著降低了推理开销。
8574 篇论文
LookaheadKV 提出了一种轻量级的 KV 缓存淘汰框架,通过引入参数高效模块直接预测未来重要性评分,在无需耗时的草稿生成前提下,实现了比现有方法更精准的淘汰效果并显著降低了推理开销。
该论文提出了一种基于组合融合分析(CFA)的新方法,通过秩 - 分特征函数和认知多样性整合多种评分系统来生成球队排名,在 2024 年 NCAA 锦标赛预测中取得了 74.60% 的准确率,优于现有的十大主流排名系统。
本文提出了面向部署的 ECoLAD 评估协议,通过在受限计算资源下对多种异常检测器进行实证研究,揭示了仅关注准确率的现有基准测试可能误导部署决策,并证明轻量级经典检测器在车载遥测场景的吞吐量约束下比深度学习方法更具可行性。
该论文提出了一种名为“历史共识训练”的迭代方法,通过利用高斯混合模型聚类的多样性来构建参数空间中的稳定屏障,从而在无需特定架构约束或超参数调优的情况下,彻底消除了变分自编码器中的后验坍塌问题。
该论文提出了一种基于核密度估计(KDE)的实用方法,通过建模合成数据与训练记录间的最近邻距离分布,在不依赖计算密集型影子模型的情况下,有效量化了表格合成数据中的成员披露风险,并实现了比现有基线更优的风险评估效果。
该论文提出了名为 RAD 的新型对齐框架,通过引入基于最优传输的一阶随机占优约束替代传统的期望成本约束,实现了对尾部风险和谱风险测度的普适性控制,从而在提升模型无害性的同时增强了其对分布外场景的鲁棒性。
该论文针对质谱分子结构识别中的高误报风险,提出了一种基于风险 - 覆盖率权衡的筛选预测框架,通过评估不同不确定性量化策略,证明利用计算成本较低的一阶置信度及检索级偶然不确定性,结合分布外风险控制方法,可在保证高概率满足预设错误率约束的前提下,有效筛选出可信的分子结构注释。
该论文正式化了测试时扩展下的密集基准排名问题,推出了开源库 Scorio 以实施多种统计排名方法,并通过在多个数学基准上的实验验证了这些方法在不同预算下对贝叶斯金标准的可靠性。
该论文提出了一种基于生物启发式自监督学习的新方法,通过引入受运动控制子运动理论启发的“运动片段”标记策略,利用 Transformer 对腕部 IMU 信号进行掩码重建预训练,从而在数据稀缺场景下显著提升了人类活动识别的鲁棒性与效率。
该论文提出了一种名为 Pointy 的轻量级 Transformer 点云架构,仅通过 3.9 万个点云样本的训练,便在性能上超越了依赖大规模跨模态监督或更多数据的基础模型,并通过统一的复现研究证明了精心设计的架构与训练策略在无需复杂 Tokenizer 的情况下即可实现卓越效果。
本文介绍了 TOSSS(基于 CVE 的双选项安全片段选择)基准,旨在通过让大语言模型在安全与易受攻击的代码片段间进行选择来评估其软件安全能力,该基准具有可扩展性,并在 14 个主流模型上进行了 C/C++ 和 Java 代码的测试。
本文提出了一种名为 FRIEND 的联邦学习框架,通过在 B5G 多 RIS 辅助的无蜂窝毫米波网络中利用边缘设备协同训练深度卷积神经网络来检测窃听者,从而在保护数据隐私的同时将保密速率提升了约 30%。
该论文研究了基于联邦学习的低轨 6G 非地面网络波束管理,通过利用高空平台站将轨道面作为分布式学习节点,并对比评估了多层感知机与图神经网络模型,结果表明图神经网络在低仰角等动态传播条件下具有更优的波束预测精度与稳定性。
该论文揭示了 Transformer 模型中的 MLP 层实际上执行的是连续信号的二值路由机制,即通过特定的“共识 - 异常”神经元架构决定哪些 token 需要非线性处理,从而解释了为何多项式平滑近似失效,并表明这种二值路由结构在功能上比连续激活更能准确捕捉计算路径的选择。
该论文提出了一种将马尔可夫链蒙特卡洛(MCMC)生成的模型参数分布作为输入融入神经网络训练的新方法,从而在避免无效采样和降低计算成本的同时,实现了与原始物理模型相当的参数不确定性量化能力。
该论文提出了一种名为 ForwardFlow 的基于深度学习的纯模拟统计推断框架,通过训练一个包含坍缩层的分支神经网络,直接从模拟数据中求解参数估计的逆问题,从而在无需解析似然函数的情况下实现有限样本精确性、对数据污染的鲁棒性以及算法近似能力。
该论文提出了一种统一的贝叶斯优化框架,利用高斯过程回归及多种扩展技术(如最优传输、变分正则化和自适应信任半径),通过单一六步代理循环高效加速势能面上极小值点、单点及双端鞍点的搜索,并辅以 Rust 代码实现以验证其在高维系统中的可扩展性与实用性。
本文提出了一种基于因子化神经隐式场的参数化动态建模方法,通过解耦空间模态与时间演化来学习 Koopman 算子的谱分解,从而在无需显式物理方程的情况下实现对复杂物理系统长期演化、参数泛化及谱分析的精准预测。
该研究利用来自小鼠和人类皮层的公开 Patch-seq 数据集,通过注意力机制 BiLSTM 模型实现了从电生理特征到转录组亚型(GABA 能中间神经元)的跨物种映射,并证实了在小鼠数据上预训练后微调至人类数据能显著提升人类神经元亚型预测的准确性。
该论文提出了一种名为 Leech 格向量量化(LLVQ)的新方法,通过扩展基于扩展 Golay 码的搜索算法以实现无需显式码本的索引、角搜索及全并行反量化,从而在无需昂贵查找机制的情况下,利用 24 维 Leech 格的最优球堆积特性实现了优于 Quip#、QTIP 和 PVQ 等现有方法的 LLM 压缩性能。