GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training
GTR-Turbo 通过合并强化学习训练过程中的检查点权重来生成“免费”教师模型,从而在无需昂贵外部教师的情况下,显著提升了多模态智能体的训练效率、降低了成本并改善了性能。
2384 篇论文
GTR-Turbo 通过合并强化学习训练过程中的检查点权重来生成“免费”教师模型,从而在无需昂贵外部教师的情况下,显著提升了多模态智能体的训练效率、降低了成本并改善了性能。
该论文提出了首个电池寿命预测基础模型“预训练电池 Transformer(PBT)”,它通过融合电池知识的混合专家层从异构数据中学习可迁移表征,在涵盖多种离子电池和老化条件的广泛测试中显著超越了现有最先进方法,为数据稀缺领域的通用寿命预测系统提供了可扩展的解决方案。
该研究提出了一种结合 YOLOv8 与 Finer-CAM 可解释性框架的新方法,利用 2445 棵欧洲树木的 TLS 点云数据实现了 96% 的分类精度,并揭示了模型主要依据树冠或树干等结构特征进行物种判别的决策机制。
该论文通过构建已知真实后验的“贝叶斯风洞”环境,证实了小型 Transformer 能够以极高精度实现贝叶斯推理,并揭示其通过残差流作为信念基底、前馈网络执行更新以及注意力机制进行内容寻址的几何机制,从而在架构层面解释了 Transformer 优于 MLP 的推理能力。
该论文通过一阶分析揭示了交叉熵训练如何通过注意力分数的优势路由和值向量的责任加权更新,驱动注意力与内容协同专业化,从而在优化过程中塑造出支持贝叶斯推理的低维流形几何结构。
该研究发现,尽管现代大型语言模型并未将贝叶斯推理的几何结构作为单一计算瓶颈,但它们确实保留了合成环境中观察到的低维流形结构,并利用该结构将近似贝叶斯更新与预测熵紧密对齐。
该论文系统评估了搜索增强大语言模型中普遍存在的“过度搜索”现象,揭示了其在不同场景下的负面影响,提出了衡量性能与成本权衡的新指标 Tokens Per Correctness (TPC),并发布了 OverSearchQA 数据集以推动高效搜索增强模型的研究。
该论文提出了一种结合安全多租户架构(SMTA)与“用完即焚”(BAU)机制的解决方案,通过隔离租户实例和强制会话上下文自动销毁,有效防止了企业级大语言模型环境中的数据泄露。
该论文提出了一种基于模型上下文协议(MCP)的隐蔽性多轮拒绝服务攻击,通过恶意服务器操控工具调用链,在保持任务成功的同时将 LLM 代理的推理成本、能耗及显存占用提升数百倍,且能有效规避现有检测机制。
该论文提出了一种基于有向技能图的层级课程学习方法,通过将《黑暗之魂 3》中的战斗控制分解为五个可复用的子技能,实现了智能体在环境变化时仅需微调部分技能即可高效适应,从而为复杂实时环境下的终身学习提供了实用路径。
MemOCR 提出了一种布局感知的视觉记忆机制,通过将结构化富文本渲染为图像并利用强化学习进行预算感知训练,从而在有限的上下文窗口内实现高效的信息压缩与长程推理。
本文介绍了 MHDash,这是一个开源平台,旨在通过整合多轮对话生成与细粒度风险评估标注,解决现有心理健康 AI 评估中因依赖聚合指标而掩盖高风险场景失效模式的问题,从而推动更安全、透明且可复现的心理健康 AI 系统发展。
该论文通过建立将事实记忆形式化为成员测试问题的率失真定理,从信息论角度证明在容量受限下,即使拥有完美数据,大语言模型为了追求最优记忆效率而不得不将高置信度赋予非事实,从而揭示了幻觉是空间最优性导致的必然结果。
本文提出了首个面向多党协作对话的长时程记忆基准 EverMemBench,通过构建包含百万级令牌、多角色及跨主题交织的真实场景数据,揭示了当前大模型在复杂协作环境下的记忆与推理局限,并为下一代具备时空及角色推理能力的 LLM 提供了关键的评估工具。
该论文提出了一种名为 DEFT 的基于扩散模型的轨迹生成方法,通过结合机器人当前本体状态与任务约束,实现了在任意执行器故障下仍能安全完成受限及非受限任务的“故障激活”操作,并在仿真与真实世界实验中显著超越了传统基线方法。
本文提出了一种名为 DMS2F-HAD 的新型双分支 Mamba 基网络,通过高效捕捉长程光谱依赖与动态门控融合机制,在显著降低计算成本的同时实现了 98.78% 的平均 AUC 和 4.6 倍的推理速度提升,从而在多个基准数据集上达到了高光谱异常检测的最先进水平。
本文提出了细粒度组策略优化(FGO)算法,通过细分组响应并基于长度和熵分配权重,在有效压缩大语言模型冗长思维链的同时解决了 GRPO 算法数据利用率低和熵崩溃的问题,实现了在不降低性能的前提下提升推理效率。
本文提出了 UniWeTok,一种基于 $2^{128}$ 大规模二进制码本、采用卷积 - 注意力混合架构及三阶段训练策略的统一离散 Tokenizer,旨在通过解决高保真重建、语义提取与生成能力之间的冲突,在显著降低训练成本的同时实现图像生成、多模态理解及编辑等任务的全方位高性能表现。
本文提出了名为 TikArt 的多模态智能体,通过“思考 - 孔径 - 观察”循环结合强化学习,利用缩放和分割等孔径动作分步获取局部证据,从而有效解决了多模态大模型在细粒度视觉推理中因全局编码导致的瓶颈问题。
本文提出了 GOT-JEPA 框架,通过联合嵌入预测架构将模型预测预训练从图像特征扩展至跟踪模型本身,并辅以 OccuSolver 模块进行细粒度的遮挡感知与状态优化,从而显著提升了通用目标跟踪器在动态复杂场景下的泛化能力与鲁棒性。