WVA: A Global Optimization Control Plane for llmd
本文提出了与推理引擎\texttt{llmd}协同设计的 WVA 全局优化控制平面,通过结合应用级 SLO、硬件异构性及引擎内部状态(如 KV 缓存)进行主动扩缩容,在提升有效吞吐量 37% 并降低 10 倍请求失败率的同时,显著优化了 GPU 资源成本与能耗。
3505 篇论文
本文提出了与推理引擎\texttt{llmd}协同设计的 WVA 全局优化控制平面,通过结合应用级 SLO、硬件异构性及引擎内部状态(如 KV 缓存)进行主动扩缩容,在提升有效吞吐量 37% 并降低 10 倍请求失败率的同时,显著优化了 GPU 资源成本与能耗。
本文提出了 FetalAgents,这是首个用于胎儿超声图像和视频分析的多智能体系统,它通过轻量级协调框架动态调度专业视觉模型,实现了从多平面关键帧识别、结构化测量到生成可审计临床报告的全流程自动化,并在多项临床任务中展现出超越专用模型和多模态大语言模型的鲁棒性与准确性。
本文提出了一种基于数据新鲜度约束的任务调度框架,通过引入任务偏移量实现数据生产的准时制(JIT)同步,并借助主导路径分解与共识偏移搜索算法,在消除冗余采样和人为延迟的同时,确保了多速率任务链的端到端数据新鲜度并维持了全局 EDF 的 100% 可调度性。
该论文针对连续环境视觉语言导航任务中监督信号稀疏及错误累积问题,提出了步感知的对比对齐(SACA)框架,通过基于感知的逐步审计机制从不完美的轨迹中提取密集监督信号,并结合场景条件分组策略实现动态优化,从而在基准测试中取得了最先进的性能。
本文提出了名为 ENIGMA-360 的新数据集,该数据集在真实工业场景中采集了 180 组时间同步的 360 度第一人称与第三人称视频及标注,旨在填补工业领域人机行为理解数据的空白,并通过基线实验展示了现有模型在此类复杂场景下的局限性。
本文提出了语言感知规划(LAP)模型,该模型利用微调后的视觉语言模型将视觉观测转化为更具区分性的文本嵌入,并通过扩散模型生成动作序列,在多个程序规划基准测试中显著超越了现有最先进方法。
本文提出了一种受毛毛虫启发的弹簧基压缩连续体机器人,该机器人通过腱驱动实现弯曲与轴向伸缩的耦合运动,并集成人工刚毛接触传感器,从而为商业机械臂提供了一种低成本、高适应性的受限空间探索与表面感知解决方案。
该论文研究了网格上两条路径的无自交同时几何嵌入问题,证明了最小化最长边长度是 NP 难的,并提出了当一条路径为 x 单调、另一条为 y 单调时,可在 时间内最小化包含该嵌入的整数网格周长的算法。
该论文主张商业电子游戏是连接人机交互与认知科学的独特研究环境,通过利用游戏固有的认知需求与动机特性,结合屏幕录制、眼动追踪等最小化观测工具,为在生态效度更高的自然情境下系统研究感知、注意及执行功能提供了新的方法论框架。
本文提出了一种神经符号生成代理,通过链式思维推理和量纲分析自主识别并修正科学文献中的隐含物理假设(如将非排水条件误判为排水条件),从而在热压致裂等模拟中避免物理幻觉,实现了对物理机制的自主补全与验证。
LogoDiffuser 是一种无需训练的基于多模态扩散变换器的方法,它通过将目标字符作为图像输入并利用字母感知注意力控制机制,实现了能够保持字符结构且支持多语言的高质量 Logo 生成与风格化。
本文提出了 MuxGel,一种通过棋盘格涂层实现空间复用并结合基于 U-Net 的深度学习重建框架,从而在单一 GelSight 风格传感器中同时获取高分辨率外部视觉与接触触觉信息的双模态感知系统。
该论文通过理论证明与实证研究揭示了后门攻击中“替代触发器”的必然存在性,指出仅移除训练触发器无法彻底清除后门,并主张防御策略应从输入空间转向针对特征空间后门方向的治理。
该论文提出了一种基于密度梯度的投影方法,通过利用局部密度梯度信息在结构边缘处选择性地施加强投影,有效解决了变厚度拓扑优化中结构边缘模糊及低厚度区域难以制造的问题,在显著恢复边缘清晰度的同时几乎不影响结构的最终柔度。
本文提出了名为 CLIOPATRA 的首个针对“隐私保护”LLM 洞察系统(如 Anthropic 的 Clio)的攻击方法,证明即使采用多重启发式防护,攻击者仍能通过精心设计的恶意对话成功窃取目标用户的敏感医疗历史,且现有审计机制无法有效检测此类泄露。
本文提出了名为 TIMID 的新架构,旨在通过结合视频与任务提示,利用弱监督学习检测机器人执行高难度任务时出现的复杂时间依赖性错误,并借助多机器人仿真数据集解决了错误执行数据稀缺及零样本仿真到现实评估的难题。
本文提出了测试时自视 - 他视适应(TE²A³)任务,并设计了通过多标签原型生长和双线索一致性机制来在线调整模型以应对多动作候选及跨视角时空差异的 DCPGN 方法,在 EgoMe-anti 和 EgoExoLearn 基准上显著优于现有最先进方法。
本文通过构建统一框架,系统比较了旨在支持 GQL 标准修订的 PG-Keys 语言与图函数依赖(GFD)、图生成依赖(GGD)的表达能力,确立了包含严格分层关系的完整表达力层级,并精确定位了 PG-Keys 在现有属性图约束形式化方法中的独特优势。
该论文提出了细粒度的区域感知声源理解(RA-SSU)新任务,构建了包含音乐和生活场景的细粒度数据集(f-Music 和 f-Lifescene),并设计了具备掩码协同与混合专家提示机制的 SSUFormer 模型,实现了帧级声源分割与描述的最先进性能。
ConfCtrl 提出了一种置信度感知的视频插值框架,通过结合置信度加权投影点云潜变量与卡尔曼启发式的预测 - 更新机制,使扩散模型在大视角变化下既能遵循指定相机姿态,又能有效重建未见区域,从而生成几何一致且视觉合理的 novel view。