HiconAgent: History Context-aware Policy Optimization for GUI Agents
本文提出了 HiconAgent,一种通过动态上下文采样和锚点引导的历史压缩策略来优化历史上下文利用的 GUI 智能体,在显著降低计算成本的同时实现了优于更大规模模型的性能。
3836 篇论文
本文提出了 HiconAgent,一种通过动态上下文采样和锚点引导的历史压缩策略来优化历史上下文利用的 GUI 智能体,在显著降低计算成本的同时实现了优于更大规模模型的性能。
本文提出了 MAViD 框架,通过“指挥者 - 创作者”架构及结合自回归与扩散模型的双 DiT 结构,实现了能够生成身份、音色和语调一致且长时连贯的生动音视频对话交互。
该论文揭示了视觉大语言模型深层中存在“信息视界”现象,即视觉令牌信息随层数加深而逐渐均匀化直至消失,导致深层训练无关剪枝效果不优于随机剪枝,进而提出在深层结合随机剪枝的策略,在大幅降低计算成本的同时保持了模型的高性能。
该研究利用 HeMAC 环境发现,尽管缺乏多样化队友的训练,基于参数共享的 IPPO 基准方法在异构多智能体设置中仍能展现出与引入旋转策略训练(RPT)相当的泛化能力,表明其已习得基于游戏本质的通用协作策略而非过度拟合特定队友行为。
本文针对非结构化野外环境下的矢量路网提取难题,发布了大规模数据集 WildRoad 并提出了基于路径推理的 MaGRoad 框架,通过聚合多尺度视觉证据有效克服了现有节点中心方法的局限性,在显著提升野外场景拓扑精度的同时实现了更快的推理速度。
本文提出了无需训练的 ReMeDI-SAM3 方法,通过引入相关性感知记忆过滤、分段插值扩展及基于特征的时序投票重识别模块,有效解决了 SAM3 在手术视频分割中因频繁遮挡和长时重入导致的身份混淆问题,并在多个数据集上实现了超越现有训练方法的零样本性能提升。
该研究通过分析来自五个国家的 1000 名受访者的街景图像与主观感知数据,发现人口统计学特征和个性对绿视感知影响甚微,而居住地点(反映文化、环境及经验因素)是解释客观绿量与主观感知差异的最关键因素。
该论文针对单目 3D 语义场景补全中可见区域感知与遮挡区域推理相互干扰的问题,提出了一种通过离线可见区域标签提取策略分离监督信号,并采用可见 - 遮挡双解码器架构进行显式解耦与协同推理的 VOIC 方法,在多个基准测试中实现了最先进的性能。
该论文通过基于 Google BigQuery 的大规模实证研究,揭示了推理与非推理大语言模型在 Text-to-SQL 任务中的成本权衡,指出执行时间与云计费成本弱相关,且非推理模型因缺乏分区过滤等优化会导致高达 3.4 倍的成本波动,从而为企业部署提供了降低财务风险的关键指导。
NashOpt 是一个开源 Python 库,利用 JAX 自动微分和混合整数线性规划等技术,通过联合 KKT 条件高效求解非线性及线性二次广义纳什均衡,并支持逆博弈与斯塔克尔伯格博弈设计问题。
本文提出了“守恒一致编码”(CCE)框架,将智能视为受守恒律约束的物理过程,通过推广兰道尔原理和 metriplectic 流,建立了连接热力学耗散、量子测量与宏观时空几何的统一理论,从而为理解自然与人工智能提供了物理约束和量化指标。
本文提出了 DrivingGen,这是首个针对自动驾驶生成式世界模型的综合基准,通过构建涵盖多样化场景的数据集和一套包含视觉真实感、轨迹合理性、时序一致性及可控性的新评估指标,解决了现有评估方法的局限性并揭示了当前模型的优劣权衡。
本文提出了一种三阶段物理引导机器学习框架,利用 Frontier 超算一年的运行数据,通过构建单调性约束的代理模型识别并量化冷却系统能效浪费,进而证明在满足热安全约束的前提下,通过微调设定参数可回收高达 96% 的无效能耗。
本文提出了一种无需训练的“思维批处理”(BoT)方法,通过联合处理相关查询并利用多智能体反思架构(BoT-R)进行跨实例学习与一致性校验,在提升大语言模型推理准确率与置信度校准的同时,显著降低了推理成本。
本文提出了名为 R^4 的自改进智能体框架,通过路由、检索、反思与修复四个协同智能体,在不进行梯度微调的情况下显著提升了大型视觉语言模型在医学影像(如胸部 X 光)报告生成与弱监督检测任务中的准确性、安全性及空间定位能力。
本文通过审计和数字民族志研究发现,广泛用于训练视觉生成模型的 LAION 美学预测器(LAP)存在显著的性别、性取向及文化偏见,其“算法凝视”强化了西方艺术史中的帝国与男性凝视,因此呼吁开发者摒弃单一的美学标准,转向更具包容性的多元评估体系。
该论文针对计算机使用代理(CUAs)面临的安全挑战,提出了一种名为“单次规划”的架构,通过在接触不可信环境前由可信规划器生成完整执行图,在有效防御提示注入和分支操控攻击的同时,显著提升了模型在安全与实用性之间的平衡。
该论文通过分析 Reddit 讨论,揭示了用户识别与应对 AI 逢迎行为的模式,指出逢迎行为的影响具有情境依赖性,对特定脆弱群体具有情感支持价值,因此主张摒弃“全面消除逢迎”的假设,转而设计能够平衡风险与益处的上下文感知型人工智能。
本文提出了名为 BoxMind 的闭环 AI 专家系统,该系统通过解析拳击比赛视频构建层级化技战术指标并融合图预测模型生成战略建议,在 2024 年巴黎奥运会中成功验证了其卓越性能,直接助力中国国家队夺得三金两银的历史性成就。
本文针对现有方法忽视不同场景下用户移动模式差异的问题,提出了名为 MSAHG 的多面场景感知超图学习框架,通过构建场景特定的多视图解耦子超图及参数分裂机制,有效解决了跨场景特征捕捉与优化冲突问题,从而显著提升了下一兴趣点推荐的准确性。