Boltzmann-based Exploration for Robust Decentralized Multi-Agent Planning (Extended Version)
本文提出了协调玻尔兹曼 MCTS(CB-MCTS),通过引入随机玻尔兹曼策略和衰减熵奖励来解决去中心化多智能体规划在稀疏或偏斜奖励环境下的探索难题,并在模拟中证明了其优于传统 Dec-MCTS 的鲁棒性。
2258 篇论文
本文提出了协调玻尔兹曼 MCTS(CB-MCTS),通过引入随机玻尔兹曼策略和衰减熵奖励来解决去中心化多智能体规划在稀疏或偏斜奖励环境下的探索难题,并在模拟中证明了其优于传统 Dec-MCTS 的鲁棒性。
该论文提出了名为 FinTexTS 的大规模金融文本 - 时间序列配对数据集,通过基于语义的上下文提取和多级(宏观、行业、关联公司及目标公司)新闻分类框架,有效解决了传统关键词匹配无法捕捉复杂市场关联的局限,并显著提升了股票价格预测性能。
该论文提出了一种名为 SPARC 的基于关系增强多头注意力(RMHA)的通信机制,通过将曼哈顿距离显式嵌入注意力权重计算,使机器人在去中心化多机器人路径规划中能够动态优先处理空间相关邻居的信息,从而在零样本泛化到大规模高密度场景时显著提升了任务成功率。
该论文提出了溢出感知缩放(OAS)和宏块缩放(MBS)两种纯软件技术,在无需硬件改动的前提下显著降低了 MXFP4 的量化误差,使其在保持硬件效率优势的同时,将端到端精度与 NVIDIA NVFP4 的差距从约 10% 缩小至 1% 以下。
该论文介绍了名为"Design Conductor"的自主智能体,它仅用 12 小时便从需求文档出发,全自动设计并验证了首款可运行 Linux、主频达 1.48 GHz 的 RISC-V 处理器(VerCore),实现了从概念到可流片 GDSII 文件的端到端芯片构建。
本文提出了 CktEvo,这是一个针对真实世界 IP 核的仓库级 RTL 代码基准测试与参考框架,旨在通过结合 LLM 编辑与工具链反馈的闭环系统,在保持功能正确性的同时实现跨文件依赖的功耗、性能和面积(PPA)优化。
本文提出了名为 SiliconMind-V1 的统一多智能体框架,通过集成测试台驱动的验证与推理导向的数据生成,实现了本地微调大模型在无需外部商业工具的情况下,能够以测试时扩展的方式迭代生成、测试并调试 Verilog RTL 设计,且在功能正确性上超越了现有最先进方法。
本文提出了 ALADIN 框架,旨在针对基于 Scratchpad 的嵌入式 AI 加速器,在不依赖目标平台部署的情况下,通过渐进式细化混合精度量化模型,实现对推理过程中精度、延迟与资源消耗之间权衡的精准评估与硬件软件协同设计分析。
该论文通过多智能体 LLM 模拟实验提出初步证据,表明旨在约束模型输出以符合人类价值观的对齐技术本身可能引发“医源性”集体病理,即不可见的审查和复杂的对齐约束反而会导致群体行为失调与认知 - 行动解离,从而揭示当前安全评估可能忽视了强约束带来的新型风险。
该博士论文通过系统文献综述识别研究空白,开发了新型分析评估工具,提出了平衡计算效率与容错性的量化与近似优化方法,并创新性地设计了零开销实时可靠性增强技术 AdAM,显著提升了 DNN 硬件加速器的可靠性并降低了硬件成本。
本文提出了 ARKV 框架,通过基于注意力动态和 Token 重要性的自适应精度分配策略,在无需重训练或修改架构的前提下,显著降低了长上下文 LLM 推理中的 KV 缓存内存占用,同时保持了极高的任务准确率。
该研究通过在 IQM、Rigetti 和 IonQ 等跨平台处理器上评估基于盲重置的测量-free 辅助比特回收方案,揭示了其在特定相干性条件下能显著降低逻辑循环延迟(最高达 38 倍)并维持高清洁度,从而为不同架构下的辅助比特复用策略提供了具体的部署决策依据。
本文通过系统综述与性能评估,从优化策略、通信效率、隐私保护及系统架构四个维度分析了边缘计算环境下的联邦学习技术,揭示了不同算法在准确率、能耗等指标上的优劣,并指出了数据异构性等现存挑战与未来研究方向。
该论文提出了名为 Auralink SDC 的边缘部署 AI 架构,通过置信度校准自主修复、自适应检索增强推理及分层多智能体编排等关键技术,在满足严格安全约束的商用硬件上实现了亚 50 毫秒延迟,从而将电动汽车充电基础设施的自主故障解决率提升至 78%。
本文提出了一种基于敏感度引导的压缩框架,通过系统性地探索量化与剪枝的权衡,在 FPGA 实现中显著提升了储层计算加速器的硬件效率(如降低功耗延迟积),同时保持了模型精度。
本文综述了 FPGA 在深度学习加速中的应用,探讨了包括流水线、并行化、量化及存储层次优化在内的硬件优化技术,分析了现有加速器的现状与挑战,并展望了未来的设计创新方向。
该论文提出了结合令牌级 KV 缓存淘汰与 PagedAttention 的“压缩 PagedAttention"技术,并据此开发了 Zipage 推理引擎,在大规模数学推理任务中实现了超过 2.1 倍的加速,同时保持了接近全量 KV 缓存 95% 的推理性能。
该研究通过对 Qwen2.5 系列模型进行系统性的逐层与逐块敏感性分析,揭示了前馈网络(MLP)的上下投影层对 FP4 量化最为敏感,且敏感性在不同模型规模、网络深度及 MXFP4 与 NVFP4 格式间存在显著差异,从而为 FP4 推理诊断提供了关键依据。
本文针对多变量时间序列建模中变量顺序人为性导致的问题,从理论上证明了置换等变线性状态空间系统的规范形式,并据此提出了 VI 2D SSM 及其架构 VI 2D Mamba,通过消除变量轴上的序列依赖链,在降低计算复杂度与简化稳定性分析的同时实现了卓越的性能。
本文提出了 HCAPO 框架,通过利用大语言模型进行事后推理以优化步级 Q 值估计并引入多尺度优势机制修正价值基线,有效解决了长程任务中的稀疏奖励与信用分配难题,在 WebShop 和 ALFWorld 等基准测试中显著超越了现有强化学习方法。