SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks
本文提出了 SALVE 框架,通过结合稀疏自编码器与 Grad-FAM 验证方法,实现对神经网络特征的无监督发现、可视化验证及基于权重空间的精确编辑,从而在卷积和 Transformer 模型上达成可解释的机制性控制。
6717 篇论文
本文提出了 SALVE 框架,通过结合稀疏自编码器与 Grad-FAM 验证方法,实现对神经网络特征的无监督发现、可视化验证及基于权重空间的精确编辑,从而在卷积和 Transformer 模型上达成可解释的机制性控制。
本文提出了名为 LaMer 的元强化学习框架,通过跨回合训练和基于反思的上下文策略适应机制,有效解决了语言智能体在长程任务中探索不足与试错适应低效的问题,显著提升了其在多样化环境中的性能与泛化能力。
本文提出了 Re-Depth Anything 框架,通过利用大规模 2D 扩散模型先验进行自监督重光照与重合成,在测试阶段无需标签即可显著修正基础深度模型(如 Depth Anything V2/3)在真实场景中的预测误差,从而实现了当前最先进的单目深度估计精度与真实感。
本文提出了一种基于牛顿 - 卡奇马兹(NK)方法的并发训练策略,通过预训练、基于不相交数据集的模型合并以及 FPGA 并行化实现,显著加速了 Kolmogorov-Arnold 网络(KANs)的收敛并提升了其性能。
该论文提出了一种名为“潜在雕刻”(Latent Sculpting)的分层两阶段表示学习架构,通过结合基于 Transformer 的二值潜在雕刻损失与掩码自回归流(MAF),在 CIC-IDS-2017 基准测试中实现了针对零日网络威胁的高精度零样本泛化异常检测,显著克服了传统监督模型在分布外数据上的泛化崩溃问题。
本文提出了 FedORA 框架,利用原始 - 对偶优化方法解决垂直联邦学习中的样本与标签遗忘难题,通过引入不确定性损失函数、自适应步长及非对称批处理设计,在显著降低计算与通信开销的同时,实现了与重新训练相当的遗忘效果与模型效用。
本文提出了一种基于流程挖掘的方法,通过分析在线游戏网络流量将其无监督表征为可解释的佩特里网状态,并成功应用于包含《皇室战争》和《火箭联盟》的 UPSIDE 案例研究,实现了对不同游戏网络行为的有效建模与分类。
本文提出了一种基于三角形感知图滤过和持久图描述符的参数化空间图粗化方法,通过折叠短边在显著减小图规模的同时,有效保留了原始空间图的关键拓扑特征,并具备旋转、平移及缩放不变性。
本文针对高维稀疏离线强化学习中的强数据污染问题,提出了一种基于稀疏鲁棒估计器预言机的演员 - 评论家方法,克服了传统最小二乘价值迭代在稀疏场景下的局限性,首次在高维稀疏马尔可夫决策过程及单策略集中度覆盖假设下,给出了具有抗污染能力的非平凡理论保证。
该论文提出了一种针对群卷积神经网络中滤波器的更弱约束方案,在减少节点数量的同时解决了非紧稳定子群作用下的不兼容性问题,并将相关结果推广至非传递群作用及非幺模群的情形。
本文针对安全关键的电网负荷预测,提出了一套超越传统精度指标(如 MAPE)的单向风险评估框架,通过对比多种神经网络架构在加州独立系统运营商数据上的表现,揭示了概率校准可能导致的“虚假安全”问题,并引入偏差约束目标以实现尾部风险最小化与避免过度预测之间的可审计权衡。
该论文提出了一种将 amortized Bayesian inference(ABI)框架适配于图数据的两阶段方法,通过结合置换不变的图编码器与灵活的后验估计网络,实现了对节点、边及图级别参数的高效、无似然贝叶斯推断,并在合成数据及生物和物流领域的真实数据上验证了其参数恢复与校准性能。
DevBench 是一个基于真实开发者遥测数据构建的代码生成基准测试,旨在通过涵盖六种语言和六类任务的 1800 个评估实例,在避免训练数据污染的同时,从功能正确性、语义推理及实际效用等多维度对大语言模型进行更具生态效度的评估与诊断。
这篇论文是首篇从组件层面系统综述大语言模型与多臂老虎机双向交互的文献,深入探讨了两者在解决各自关键挑战(如从预训练到个性化)及优化核心决策组件方面的互补优势、现有方法、性能表现及未来研究方向。
本文提出了 ELSA 框架,通过融合行为感知客户端聚类、资源自适应模型分割以及基于计算草图与语义子空间正交扰动的轻量级通信机制,有效解决了资源受限边缘网络中大规模语言模型在数据异构、设备不稳定及隐私风险下的分层联邦微调难题。
该论文提出了一种面向 FPGA 的连续流数据率感知 CNN 推理架构,通过交错低数据率信号、共享硬件单元及优化并行化策略,解决了卷积层和池化层导致的数据率下降问题,从而在实现接近 100% 硬件利用率的同时显著降低了逻辑资源消耗,使得在单块 FPGA 上部署 MobileNet 等复杂网络成为可能。
本文提出了名为 MeanCache 的训练无关缓存框架,通过利用缓存的 Jacobian-向量积构建平均速度以替代瞬时速度,并配合轨迹稳定性调度策略,在 FLUX.1、Qwen-Image 和 HunyuanVideo 等模型上实现了显著加速(最高达 4.56 倍)的同时保持了优于现有基线的生成质量。
PASS 是一种可扩展的成对约束 k-均值聚类框架,它通过将优化集中于小型工作子集并引入基于列表着色的可验证修复机制,有效解决了大规模及量子/混合场景下的约束可行性问题,在降低运行时间的同时保证了聚类质量。
该论文通过系统实证比较,表明在非线性动态系统中,无需系统方程的模型-free 神经状态估计器(特别是状态空间模型)在性能上可媲美强非线性卡尔曼滤波,同时具备更高的推理吞吐量。
TimeSliver 是一种新颖的可解释深度学习框架,它通过联合利用原始时间序列数据及其符号化抽象来构建保持时序结构的表示,从而线性编码每个时间段的贡献并赋予其有意义的评分,在显著提升时序归因解释性的同时保持了与最先进基线相当的预测性能。