Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation
该论文利用可解释性技术分析知识蒸馏过程中内部电路的重构机制,发现学生模型(如 DistilGPT2)在保留功能行为的同时,会通过重组、压缩甚至丢弃教师模型组件来改变内部计算结构,并提出了基于影响加权的组件对齐指标以量化这种功能对齐。
2330 篇论文
该论文利用可解释性技术分析知识蒸馏过程中内部电路的重构机制,发现学生模型(如 DistilGPT2)在保留功能行为的同时,会通过重组、压缩甚至丢弃教师模型组件来改变内部计算结构,并提出了基于影响加权的组件对齐指标以量化这种功能对齐。
该论文提出了名为 Ready2Unlearn 的元学习优化方法,通过在训练阶段前瞻性地赋予模型“可遗忘就绪”状态,使其在面对未来的数据删除请求时,能够比传统反应式方法更高效、更规范地执行机器遗忘。
该论文介绍了利用 Apple Vision Pro 采集的 EgoDex 数据集,这是目前规模最大且最多样化的灵巧操作数据集,包含 829 小时带有同步 3D 手部追踪数据的沉浸式视频,旨在通过填补大规模数据空白来推动机器人模仿学习与基础模型的发展。
FreeKV 提出了一种无需训练的算法与系统协同优化框架,通过推测检索、细粒度校正及混合内存布局等创新技术,在保持大语言模型推理精度近乎无损的同时,将 KV 缓存检索效率提升了最高 13 倍。
本文针对动态环境中决策导向学习(DFL)面临的梯度缺失与非凸性挑战,提出了两种结合正则化与扰动技术的在线算法,并首次为该问题建立了静态与动态 regret 理论保证,且在背包实验中的表现优于现有基准。
本文提出了 Vid2World 框架,通过系统性地重塑预训练视频扩散模型的架构与训练目标并引入因果动作引导机制,成功将其转化为能够生成高保真、可交互且具备动作可控性的通用世界模型,从而在机器人操作、3D 游戏模拟及开放世界导航等多个领域实现了高效应用。
本文提出了 MAS-ZERO,这是首个无需验证集即可在推理阶段通过元级设计自我演化、动态分解问题并自适应调整代理配置的自动多智能体系统框架,在多种任务中显著超越了现有手动及自动基线方法。
该论文提出了首个将硬件描述语言(HDL)固有图特征(如抽象语法树和数据流图)与检索增强生成(RAG)相结合的 HDLxGraph 框架,并发布了基于真实项目的 HDLSearch 基准数据集,有效解决了现有 RAG 在处理复杂 HDL 项目时面临的结构性与词汇性不匹配问题,显著提升了搜索、调试和代码补全的准确率。
针对现有协同学习基准忽视真实世界数据孤岛中表连接与对齐等端到端数据管理流程的不足,本文构建了基于 10 万个真实关系数据库的 WikiDBGraph 基准套件,以评估并揭示现有方法在复杂异构数据环境下的局限性及改进方向。
本文提出了基于非回合制游戏 Agar.io 的持续强化学习研究平台 AgarCL,该平台通过高维、随机且动态演化的环境为智能体提供了渐进式行为发展的测试场,并通过对多种算法的评估揭示了 AgarCL 所面临的挑战超越了传统的稳定性 - 可塑性困境。
本文提出了首个跨尺度全球湿地甲烷排放基准数据集 X-MethaneWet,该数据集融合了物理模型模拟与实地观测数据,并通过评估深度学习模型及迁移学习策略,为利用人工智能提升全球甲烷通量建模精度与科学发现提供了新途径。
该论文建立了一个针对无限维概率分布空间的最优控制最大原理与哈密顿 - 雅可比 - 贝尔曼方程的通用理论框架,并提出了结合深度神经网络的扩展数值算法,以有效解决包含障碍物和智能体交互的大规模多智能体控制问题。
本文提出了名为 VISTA 的免训练框架,通过结合文本与图表多模态信息并利用思维链提示引导视觉语言模型,在零样本设置下实现了显著优于传统统计模型及单模态方法的股票价格预测性能。
该论文提出了一种通过向大语言模型的中间层表示注入可训练嵌入来增强指令层级信号的新方法,从而显著降低了提示注入攻击的成功率,同时保持了模型的实用性。
该论文针对高阶共同邻居中存在的冗余和过平滑问题,提出了通过正交化和归一化技术消除重复并缓解过平滑的“正交共同邻居(OCN)”方法,在多个链接预测基准测试中显著优于现有最先进模型。
本文提出了名为 ViTaPEs 的基于 Transformer 的架构,通过引入包含模态内局部编码与跨模态全局编码的两阶段位置注入机制,实现了任务无关的视触觉表征学习,在多项真实世界数据集的识别任务及机器人抓取场景中均展现出超越现有最先进方法的性能与零样本泛化能力。
本文提出了 LoFT 方法,通过将优化器的一阶和二阶动量投影到低秩子空间以对齐全量微调的动态,从而在不增加推理成本或额外超参数调优的情况下,显著缩小了参数高效微调与全量微调之间的性能差距。
该论文提出了名为“渐进式神经坍缩”(ProNC)的新框架,通过动态扩展等角紧帧(ETF)目标而非依赖固定全局 ETF,有效缓解了持续学习中的灾难性遗忘问题,并在实验中展现出优于现有基线的性能与灵活性。
该论文提出了一种即插即用的自适应校正方法,通过引入轻量级可学习算子,在保持神经算子表达能力的同时灵活且严格地确保质量、动量等物理守恒定律,从而显著提升了模型在求解偏微分方程时的精度、稳定性及整体性能。
本文提出了 ActivePusher 框架,通过结合残差物理建模与基于不确定性的主动学习,优化非抓取操作中的数据收集与规划过程,从而显著提升了数据效率及在仿真和真实环境中的规划成功率。