AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU
AgentServe 是一种专为消费级 GPU 设计的单卡推理系统,通过算法与系统协同设计(如隔离预填充与解码、动态预算及自适应 CUDA 资源分配),有效解决了多智能体工作负载下的资源争用问题,显著提升了延迟稳定性与吞吐量。
5623 篇论文
AgentServe 是一种专为消费级 GPU 设计的单卡推理系统,通过算法与系统协同设计(如隔离预填充与解码、动态预算及自适应 CUDA 资源分配),有效解决了多智能体工作负载下的资源争用问题,显著提升了延迟稳定性与吞吐量。
本文提出了 EmoStory,一种通过两阶段框架(包含基于智能体的情感规划与区域感知生成)来实现情感导向、主体一致且视觉连贯的图像故事生成的新方法,并在新构建的数据集上验证了其优于现有技术的性能。
该论文提出了一种基于参数化平衡流形的统一框架,通过结合混合推理策略(触觉 SLAM)与自适应刚度控制,实现了在视觉遮挡和触觉欠定条件下对工具介导交互的鲁棒感知、在线规划及闭环操纵。
该论文针对大语言模型注意力计算中因头间稀疏度差异导致的跨 GPU 资源气泡问题,提出了一种名为 S-HPLB 的稀疏感知头并行负载均衡策略,通过自适应分配稀疏预算,在保持推理质量的同时将平均注意力计算延迟降低了 2.88 倍。
StyleGallery 提出了一种无需训练且具备语义感知能力的个性化风格迁移框架,通过语义区域分割、聚类区域匹配及风格迁移优化三个核心阶段,有效解决了现有方法在语义对齐、额外约束依赖及全局 - 局部特征平衡方面的局限,实现了基于任意参考图像的高质量风格迁移。
该论文提出了一种名为“一符双命”的统一框架,通过协同利用增强视觉令牌与剪枝视觉令牌分别强化视觉表征和构建潜在空间负样本,以训练-free 的方式有效平衡多模态大模型的视语关系并显著抑制幻觉。
本文提出了一种名为几何自编码器(GAE)的框架,通过利用视觉基础模型构建优化的语义监督目标、采用潜变量归一化替代传统 KL 散度以及引入动态噪声采样机制,有效解决了现有潜在扩散模型在语义判别性、重建保真度与紧凑性之间的平衡难题,并在 ImageNet-1K 基准上实现了超越现有最先进方法的生成性能。
该论文提出了 GeoSense 框架,通过引入独立几何输入通道并训练模型自主感知 2D 线索的不足,使其仅在必要时动态调用几何特征进行推理,从而在提升空间理解能力的同时避免了计算冗余并保持了原有的视觉推理性能。
该论文通过在大规模股票数据上实施条件扩散模型,揭示了因子维度与偏差 - 方差权衡之间的关键关系,并发现选择适中的因子数量能构建出泛化能力最强、表现优于基准策略的投资组合。
本文针对缺乏内置安全约束的开源代码代理框架 OpenClaw 进行了安全分析,揭示了其原生防御在对抗攻击下的高脆弱性,并提出并验证了一种人机协同(HITL)防御层,显著提升了系统对恶意指令的拦截能力。
该论文通过在 NASA NOS3 仿真环境中演示利用供应链植入的恶意组件成功欺骗卫星遥测数据,揭示了这种源自卫星内部的攻击向量对任务完整性构成的严重威胁,并提出了包括认证遥测和组件证明在内的缓解措施。
ScanDP 提出了一种基于扩散策略的高效 3D 扫描框架,通过采用占据栅格地图和混合路径优化方法,实现了在未见物体类别上具有更强泛化能力、抗噪性及覆盖率的通用扫描。
该研究通过设计名为 AnimaStand 的动画手机支架,将智能手机转化为主动的具身协调者,在四人小组讨论中有效重燃了成员参与度,并提升了群体动态、任务表现及人际关系。
本文针对现有多人姿态估计评估指标过度依赖置信度排序而忽视低置信度误检的问题,提出了一种基于最优传输理论的 OCpose 指标,通过平等评估所有检测姿态并利用置信度优化匹配可靠性,实现了真阳性与假阳性之间的公平权衡。
本文提出了一种名为 SpatioCoupledNet 的混合运动学信息与学习驱动的形状控制方法,通过分层神经网络架构和置信度门控机制,有效解决了柔性超冗余机器人因顺应性导致的稳定性问题,显著提升了其在复杂动态环境下的控制精度、收敛速度及抗干扰能力。
本文提出了一种结合核密度估计与卡方分布匹配的新型损失函数,用于校准高斯轨迹预测器的不确定性,从而显著提升自动驾驶在复杂场景下的规划安全性与可靠性。
本文提出了名为“运动强制(Motion Forcing)”的解耦框架,通过“点 - 形 - 貌”分层范式将物理推理与视觉合成分离,并利用掩码点恢复策略迫使模型学习潜在物理规律,从而在复杂场景下实现了视频生成中视觉质量、物理一致性与可控性的稳定平衡。
该论文提出了一种名为可微分几何索引(DGI)的新方法,通过操作统一(利用 Gumbel-Softmax 和对称权重共享解决优化阻断)和等向几何优化(在单位超球面上使用缩放余弦相似度解决几何冲突),有效解决了生成式检索中索引构建与检索目标解耦及长尾项被热门项掩盖的问题,从而在大规模搜索和电商场景中实现了优于现有基线的性能。
本文提出了 Frames2Residual (F2R) 框架,通过时空解耦策略将自监督视频去噪分为盲时域一致性建模与非盲空域纹理恢复两个阶段,有效解决了现有方法因中心像素掩码导致的纹理丢失问题,从而在 sRGB 和 RAW 视频基准上显著提升了去噪性能。
本文提出了 TractoRC,一种统一的概率学习框架,通过构建共享的流形嵌入空间并采用变换等变的自监督策略,首次将脑白质纤维束的配准与聚类任务联合优化,从而显著提升了两项任务的性能。