RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators
本文提出了 RedFuser 框架,通过形式化理论方法自动识别并融合级联归约操作,在 AI 加速器上生成优化内核,从而在多种工作负载中实现比现有编译器快 2 至 5 倍的加速,并达到手写内核的性能水平。
2384 篇论文
本文提出了 RedFuser 框架,通过形式化理论方法自动识别并融合级联归约操作,在 AI 加速器上生成优化内核,从而在多种工作负载中实现比现有编译器快 2 至 5 倍的加速,并达到手写内核的性能水平。
本文提出了一种针对经验性抗生素处方中确定性、基于规则的临床决策支持系统的治理与评估框架,该框架将治理作为核心设计要素,通过明确界定作用范围、强制中止条件及确定性约束,并采用基于合成病例的行为一致性验证方法,以确保系统在高风险场景下的透明度、可审计性及保守决策行为。
该论文指出,面对 AI 代理难以界定的法律挑战,提出了“算法公司”(A-corp)这一法律拟制实体方案,通过将其作为连接人类所有者与 AI 自主行为的桥梁,同时解决“薄身份”(责任归属)与“厚身份”(AI 个体化)问题,使 AI 系统能够作为具有稳定目标和法律责任能力的独立实体存在。
本文介绍了 dmaplane,这是一个 Linux 内核模块,通过提供稳定的用户空间 API 来显式管理缓冲区生命周期、跨设备共享及 NUMA 感知分配等关键功能,从而解决了 AI 传输库在缓冲区编排方面的缺失,并实现了高效的 RDMA 数据传输与分布式推理。
该论文通过在 AMD Instinct MI325X 集群上对四种不同架构的大语言模型进行基准测试与部署研究,揭示了架构感知优化(如 MLA 模型需特定配置、AITER 运行时需选择性启用)对推理性能的关键影响,并证实了模型在大规模并发下的高吞吐量与稳定性。
本文提出了 HTM-EAR,一种结合 HNSW 工作记忆与归档存储的分层记忆系统,通过重要性感知淘汰机制和混合路由策略,在长周期运行且上下文受限的饱和场景下,有效平衡了关键信息保留与陈旧记忆遗忘,显著优于传统 LRU 等基线方法。
该论文针对现有图基础模型基准测试仅关注主题领域差异的不足,提出了一个同时评估主题与格式领域迁移能力的新基准,通过涵盖预训练到少样本适应的全流程实验,揭示了现有模型在语义泛化与表示鲁棒性方面的新见解。
该论文提出了首个针对 LLM 智能体的定向位翻转攻击框架 Flip-Agent,通过操纵硬件故障来同时控制最终输出和工具调用,揭示了此类系统在真实任务中存在的严重安全漏洞。
该论文提出了一种自适应模态平衡动态语义图差分网络(AMB-DSGDN),通过构建多模态子图、引入差分图注意力机制以滤除噪声并保留关键信号,以及设计自适应模态平衡机制防止主导模态压制,从而有效解决多模态对话情感识别中情感依赖建模不足和模态融合失衡的问题。
该研究通过大规模对照实验发现,评估格式(如多项选择与开放式回答)对语言模型安全分数的影响远大于脚手架架构本身,且模型与脚手架之间存在显著的交互效应,导致无法建立通用的安全排名,因此必须针对特定模型和配置进行独立测试。
本文提出了一种基于通道门控调制的参数高效持续学习框架,通过冻结预训练骨干网络并仅学习对角缩放因子,在无需数据回放的情况下有效平衡了人类活动识别中的稳定性与可塑性,显著降低了灾难性遗忘并提升了模型在连续新主体任务上的最终准确率。
本文提出并评估了五种旨在减少工业大语言模型幻觉的提示工程策略,通过“增强数据注册”等方法在基准测试中显著提升了输出的一致性与事实准确性,从而在不修改模型权重的情况下推动工业流程向认知稳定性迈进。
本文揭示了 Sharpness-Aware Minimization (SAM) 利用单步上升点梯度更新当前参数能更准确地逼近邻域内最大值的直观原理,并针对现有近似误差及多步上升带来的质量退化问题,提出了计算开销极低且性能更优的显式锐度感知最小化方法(XSAM)。
本文介绍了名为 InFusionLayer 的开源 Python 工具,该工具基于组合融合分析(CFA)中的秩分特征函数和认知多样性,构建了一种通用的机器学习架构,旨在通过融合多个基模型来优化监督与无监督的多分类问题,并已在多种计算机视觉数据集上验证了其易用性与有效性。
该论文指出将加密流量扁平化为字节序列会导致协议语义丢失,进而提出一种基于协议原生语义的表格化预训练范式 FlowSem-MAE,通过引入可预测性过滤、特定字段嵌入及双轴注意力机制,在仅使用一半标注数据的情况下显著优于现有最先进方法。
该论文提出利用神经细胞自动机生成可控且廉价的合成非语言数据对大语言模型进行“预预训练”,结果发现仅使用 1.64 亿个合成 token 即可在语言建模和推理任务上取得优于 16 亿自然语言 token 预训练的效果,并揭示了注意力层的高可迁移性及不同领域对合成数据复杂度的差异化需求。
本文提出了一种名为“代理式人工智能物料清单(AIBOMs)”的框架,通过引入多代理架构和标准扩展,将传统的静态软件物料清单(SBOMs)升级为能够自主监控运行时行为、环境漂移及漏洞可 exploitability 的动态可重现性证明体系。
本文提出了名为 NabaOS 的轻量级验证框架,该框架借鉴印度认识论(Nyaya Shastra)对 LLM 主张进行来源分类,并通过 HMAC 签名的工具执行收据在实时交互中高效检测幻觉,从而在极低延迟下实现了比零知识证明更实用的成本 - 延迟 - 覆盖权衡。
这篇论文从计算机体系结构视角出发,将多智能体记忆建模为包含共享与分布式范式及三层分级的架构问题,并指出跨智能体缓存共享、结构化访问控制以及最关键的记忆一致性是当前构建可靠可扩展多智能体系统面临的核心挑战。
本文提出并证明了“认识论支持点滤波器”(ESPF)是唯一的最优证据筛选器,它通过在传播阶段应用最大熵原则、在更新阶段应用证伪原则,实现了最小化最坏情况认识论无知,并在高斯极限下退化为卡尔曼滤波。