Grouter: Decoupling Routing from Representation for Accelerated MoE Training
该论文提出了 Grouter 框架,通过从已训练好的 MoE 模型中蒸馏高质量路由结构并将其作为固定路由器,成功将路由优化与权重更新解耦,从而显著加速了 MoE 模型的收敛速度并提升了训练吞吐量。
9324 篇论文
该论文提出了 Grouter 框架,通过从已训练好的 MoE 模型中蒸馏高质量路由结构并将其作为固定路由器,成功将路由优化与权重更新解耦,从而显著加速了 MoE 模型的收敛速度并提升了训练吞吐量。
本文针对在线杂货购物中重复购买模式与复杂商品关系的挑战,提出了一种名为 T-REX 的基于 Transformer 的架构,通过动态序列采样、自适应位置编码及类别级建模等创新,有效捕捉短期篮内依赖与长期用户偏好,从而在亚马逊在线杂货业务中显著提升了个性化品类推荐及下一篮预测的准确性。
本文提出了一种针对时序交易网络的防泄漏因果图特征提取协议,通过构建仅利用历史边信息的可解释结构描述符,在 Elliptic 数据集上验证了其在保持高检测性能的同时,能有效补充交易属性并增强欺诈检测流程的可解释性与风险上下文分析能力。
该论文提出机器学习中的多项式搜索问题存在一种新的“不确定性原理”,即最小值越尖锐,其周围的梯度下降路径(峡谷)就越平坦,导致优化陷入局部极小,这一现象揭示了机器学习在科学应用中的本质属于物理学范畴,并扩展了传统傅里叶分析中的不确定性原理。
该研究通过系统实验表明,小语言模型在图属性推理任务中的表现高度依赖于输入表示方式(如保留邻域结构)和推理策略(如多分支推理),而不仅仅取决于模型规模。
本文提出了首个面向大语言模型的智能家居基准数据集 SmartBench,涵盖正常与异常设备状态及行为上下文,评估结果显示当前主流模型在检测和处理智能家居异常状态方面仍存在显著不足。
该论文提出了名为 HEARTS 的统一基准,旨在通过整合 16 个真实数据集和 110 项任务来评估大语言模型在健康时间序列上的分层推理能力,研究发现当前模型在复杂时序推理上表现不佳且单纯扩大规模无法解决这一问题,从而为开发下一代医疗推理智能体提供了标准化测试平台。
本文提出了 RECAP 方法,这是一种结合未训练储层动力学与自组织赫布原型读出机制的生物启发式图像分类策略,通过局部突触可塑性规则实现无需反向传播的鲁棒识别,并在未见过的图像噪声下展现出优异的泛化能力。
该论文揭示了基于剪枝的扩散模型遗忘方法存在严重安全隐患,即被剪枝的权重位置本身会泄露关键信息,使得攻击者无需额外数据或训练即可完全恢复被遗忘的概念,并据此提出了相应的防御策略。
SR-TTT 通过引入基于损失门控的稀疏记忆机制,将高惊异度的关键令牌动态路由至精确注意力残差缓存,从而在保持 O(1) 内存占用的同时解决了传统测试时训练(TTT)模型在精确回忆任务中的灾难性遗忘问题。
本文全面综述了量子深度学习(QDL),通过界定其操作定义与四大范式,系统梳理了从理论原理、软硬件实现到实际应用的现状,批判性评估了量子优势并分析了关键瓶颈,旨在为研究人员提供从近期演示迈向可扩展容错实现的验证导向路线图。
本文提出了一种基于自适应信任评分机制的联邦学习框架,通过利用频率响应数据的频谱特征来解读骨愈合阶段,有效解决了分布式医疗传感环境中不可靠或对抗性参与者带来的安全挑战,从而在保障模型完整性的同时提升了训练稳定性与预测性能。
本文提出了 HURRI-GAN 这一基于时间序列生成对抗网络(TimeGAN)的新型人工智能方法,旨在通过校正物理模型(如 ADCIRC)的系统性偏差,在减少计算网格分辨率和运行时间的同时,实现超越现有水位监测站范围的飓风风暴潮高精度预测。
本文提出了一种名为测地线梯度下降(GGD)的通用且无需学习率的优化算法,该算法通过在目标函数诱导的流形上利用 n 维球面近似局部邻域并沿测地线更新参数,有效解决了传统欧氏梯度下降偏离流形及黎曼梯度下降难以表征复杂流形的问题,并在多项实验中显著降低了测试误差。
该研究通过变分自编码器降维,评估了五种图构建方法对图注意力网络在 N-BaIoT 数据集上检测 IoT 僵尸网络性能的影响,发现 Gabriel 图构建法以 97.56% 的准确率取得了最佳效果。
本文提出了一种名为投影增强图(PAG)的新型近似最近邻搜索框架,通过结合投影技术与图索引,在满足现代 AI 应用六大关键需求的同时,实现了比 HNSW 快达 5 倍的查询性能、快速的索引构建速度以及良好的高维扩展性和在线插入支持。
该论文提出了 EnsAug 框架,通过为集成学习中的每个专家模型分别应用单一独特的几何变换来训练,从而在保持人体运动几何约束的同时提升模型多样性,在多个手势和动作识别基准测试中实现了优于传统混合增强方法的性能。
本文提出了 HyperTokens 框架,通过按需生成微调令牌、引入元启发式正则化以抑制遗忘,并结合因果视角的辅助多模态监督,在显著降低存储成本的同时实现了视频语言理解任务的高效持续学习。
本文提出了名为 ERP-RiskBench 的复合基准与防数据泄露的集成学习框架,通过结合真实采购日志、标注欺诈数据及合成数据,利用时间感知和分组感知的嵌套交叉验证,显著提升了企业资源计划(ERP)系统中财务风险检测的准确性与可解释性,并纠正了以往研究中因数据泄露导致的性能高估问题。
该论文提出了一种利用加权光谱角距离损失函数的无监督 CNN 自编码器,用于对历史油画(如根特祭坛画)横截面的 ATR-μFTIR 高光谱图像进行盲解混,从而在克服大气干扰和采集伪影的同时,实现了对复杂混合光谱中端元光谱及其丰度图的自动、客观提取。