HiconAgent: History Context-aware Policy Optimization for GUI Agents
本文提出了 HiconAgent,一种通过动态上下文采样和锚点引导的历史压缩策略来优化历史上下文利用的 GUI 智能体,在显著降低计算成本的同时实现了优于更大规模模型的性能。
1871 篇论文
本文提出了 HiconAgent,一种通过动态上下文采样和锚点引导的历史压缩策略来优化历史上下文利用的 GUI 智能体,在显著降低计算成本的同时实现了优于更大规模模型的性能。
本文提出了 MAViD 框架,通过“指挥者 - 创作者”架构及结合自回归与扩散模型的双 DiT 结构,实现了能够生成身份、音色和语调一致且长时连贯的生动音视频对话交互。
该论文揭示了视觉大语言模型深层中存在“信息视界”现象,即视觉令牌信息随层数加深而逐渐均匀化直至消失,导致深层训练无关剪枝效果不优于随机剪枝,进而提出在深层结合随机剪枝的策略,在大幅降低计算成本的同时保持了模型的高性能。
本文针对非结构化野外环境下的矢量路网提取难题,发布了大规模数据集 WildRoad 并提出了基于路径推理的 MaGRoad 框架,通过聚合多尺度视觉证据有效克服了现有节点中心方法的局限性,在显著提升野外场景拓扑精度的同时实现了更快的推理速度。
该论文提出了一种结合规则化口罩形变与无配对图像翻译生成对抗网络的两步数据增强框架,旨在利用极少量训练数据生成高质量口罩人脸样本以解决相关任务数据匮乏问题,并坦诚说明了其受限于资源约束、未完成下游定量评估及非 AI 辅助生成的背景。
本文提出了 SALVE 框架,通过结合稀疏自编码器与 Grad-FAM 验证方法,实现对神经网络特征的无监督发现、可视化验证及基于权重空间的精确编辑,从而在卷积和 Transformer 模型上达成可解释的机制性控制。
本文提出了无需训练的 ReMeDI-SAM3 方法,通过引入相关性感知记忆过滤、分段插值扩展及基于特征的时序投票重识别模块,有效解决了 SAM3 在手术视频分割中因频繁遮挡和长时重入导致的身份混淆问题,并在多个数据集上实现了超越现有训练方法的零样本性能提升。
该研究通过分析来自五个国家的 1000 名受访者的街景图像与主观感知数据,发现人口统计学特征和个性对绿视感知影响甚微,而居住地点(反映文化、环境及经验因素)是解释客观绿量与主观感知差异的最关键因素。
本文提出了 Re-Depth Anything 框架,通过利用大规模 2D 扩散模型先验进行自监督重光照与重合成,在测试阶段无需标签即可显著修正基础深度模型(如 Depth Anything V2/3)在真实场景中的预测误差,从而实现了当前最先进的单目深度估计精度与真实感。
该论文针对单目 3D 语义场景补全中可见区域感知与遮挡区域推理相互干扰的问题,提出了一种通过离线可见区域标签提取策略分离监督信号,并采用可见 - 遮挡双解码器架构进行显式解耦与协同推理的 VOIC 方法,在多个基准测试中实现了最先进的性能。
该论文提出了一种结合多头选择性状态空间模型与轻量级通道 MLP 的高效混合扫描视觉 Mamba 框架,通过极低的计算成本在 7T 脑部和 1.5T 前列腺 MRI 超分辨率任务中实现了超越现有方法的精度与解剖细节保留能力。
本文提出了 DrivingGen,这是首个针对自动驾驶生成式世界模型的综合基准,通过构建涵盖多样化场景的数据集和一套包含视觉真实感、轨迹合理性、时序一致性及可控性的新评估指标,解决了现有评估方法的局限性并揭示了当前模型的优劣权衡。
该论文提出了一种基于 Swin Transformer 和序列到序列解码器的轻量级两阶段多任务视觉语言框架,通过先训练后冻结视觉编码器的策略,在作物病害视觉问答任务中实现了接近完美的分类精度、优异的语言生成能力及良好的可解释性,并在外部基准测试中展现了出色的泛化性能。
本文提出了名为 R^4 的自改进智能体框架,通过路由、检索、反思与修复四个协同智能体,在不进行梯度微调的情况下显著提升了大型视觉语言模型在医学影像(如胸部 X 光)报告生成与弱监督检测任务中的准确性、安全性及空间定位能力。
本文通过审计和数字民族志研究发现,广泛用于训练视觉生成模型的 LAION 美学预测器(LAP)存在显著的性别、性取向及文化偏见,其“算法凝视”强化了西方艺术史中的帝国与男性凝视,因此呼吁开发者摒弃单一的美学标准,转向更具包容性的多元评估体系。
本文提出了专为移动设备设计的 S2DiT(流式三明治扩散 Transformer),通过混合高效注意力机制、预算感知的动态规划搜索以及 2 合 1 蒸馏框架,在 iPhone 上实现了超过 10 FPS 的实时流式视频生成,同时达到了与顶尖服务器模型相当的高质量。
本文针对视觉 - 语言 - 动作(VLA)模型中因模态失衡导致的“虚假完成”问题,提出了首个评估基准套件,并设计了通过引入任务阶段感知视觉线索来动态平衡视觉与本体感觉的 ReViP 框架,显著提升了模型在扰动下的鲁棒性与任务成功率。
本文提出了 ScenePilot-Bench,这是一个基于 3847 小时多粒度标注驾驶视频构建的大规模基准,旨在通过涵盖场景理解、空间感知、运动规划及安全评估的四维体系,全面评估视觉语言模型在自动驾驶场景中的能力与局限。
本文提出了一种名为 QSTar 的新型查询引导时空频交互方法,通过引入查询上下文推理模块并充分利用音频的频域特性及问题引导线索,有效解决了现有音视频问答任务中音频与文本信息利用不足的问题,从而在多个基准测试中显著提升了性能。
本文提出了名为 MeanCache 的训练无关缓存框架,通过利用缓存的 Jacobian-向量积构建平均速度以替代瞬时速度,并配合轨迹稳定性调度策略,在 FLUX.1、Qwen-Image 和 HunyuanVideo 等模型上实现了显著加速(最高达 4.56 倍)的同时保持了优于现有基线的生成质量。