Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization
本文提出了细粒度组策略优化(FGO)算法,通过细分组响应并基于长度和熵分配权重,在有效压缩大语言模型冗长思维链的同时解决了 GRPO 算法数据利用率低和熵崩溃的问题,实现了在不降低性能的前提下提升推理效率。
2315 篇论文
本文提出了细粒度组策略优化(FGO)算法,通过细分组响应并基于长度和熵分配权重,在有效压缩大语言模型冗长思维链的同时解决了 GRPO 算法数据利用率低和熵崩溃的问题,实现了在不降低性能的前提下提升推理效率。
本文提出了 GOT-JEPA 框架,通过联合嵌入预测架构将模型预测预训练从图像特征扩展至跟踪模型本身,并辅以 OccuSolver 模块进行细粒度的遮挡感知与状态优化,从而显著提升了通用目标跟踪器在动态复杂场景下的泛化能力与鲁棒性。
本文提出了名为 LexiSafe 的离线安全强化学习框架,通过引入词典式安全 - 奖励层级结构及单/多成本变体,在理论上保证了样本复杂度与安全性界限,并在实践中有效降低了安全违规风险并提升了任务性能。
该论文提出了 ZACH-ViT,一种移除位置编码和 [CLS] 标记的紧凑 Vision Transformer 架构,通过全局平均池化实现置换不变性,在医学影像的小样本场景下证明了根据数据空间结构特性调整归纳偏置(即在不同数据分布下表现出差异化的性能优势)比追求通用基准主导更为重要。
该论文从统计物理角度提出了基于随机问题的硬约束满足问题新基准,并通过公平对比证明在解决此类难题时,经典启发式算法的表现仍优于图神经网络。
该研究提出利用基于大语言模型的全自动 AI 分析师在大规模、低成本地复现人类多分析师研究中的分析多样性,揭示了不同 AI 代理对同一数据集的分析结果存在显著差异且可被引导,从而论证了 AI 自动化实证科学中证据易受选择性报告影响的挑战,并呼吁建立包含“多元宇宙”式报告及提示词完全披露的新透明度规范。
该论文针对次加性集合函数学习中因缺失值导致的歧义问题,通过研究最小与最大补全的距离分析,提出了一种主动查询策略以在离线和在线模式下最小化加性误差,从而高效逼近未知的次加性函数。
该论文通过训练 OPT 模型并评估其在 BLiMP 基准上的表现,发现模型在部分语法类别中会因早期训练阶段形成的错误统计偏差而陷入难以纠正的“错误固化”状态,并据此提出了旨在解释这一现象的“双词假设”(Bigram Hypothesis)。
该论文提出了 CARE 框架,通过解耦视觉定位与推理模块、引入专家级证据生成及强化学习优化,构建了一个模拟临床工作流的智能体系统,从而显著提升了多模态医疗推理的准确性与临床可问责性。
该论文提出了名为 CFG-Ctrl 的统一框架,将 Classifier-Free Guidance 重新诠释为生成流中的控制机制,并进一步设计了基于滑模控制(SMC-CFG)的非线性反馈方法,通过引入切换控制项和 Lyapunov 稳定性分析,有效解决了传统线性控制在大引导尺度下的不稳定与过冲问题,显著提升了文本到图像生成模型的语义对齐能力与鲁棒性。
该论文首次系统评估了代码分析领域的多任务参数高效微调(PEFT),发现共享 PEFT 模块不仅能以极低的计算和存储成本实现媲美单任务微调的精度,且显著优于通用大模型的直接提示,同时揭示了任务稳定性、互补性及数据质量等关键因素对多任务协同微调效果的决定性影响。
该论文提出了一种名为“目标推理遗忘”(TRU)的新方法,通过引入基于推理的遗忘目标并结合监督损失与梯度上升损失,在实现大语言模型精准、可解释的知识移除的同时,有效保留了模型的通用能力并增强了其鲁棒性。
本文提出了 MoE-SpAc 框架,通过将推测解码重构为内存管理的“信息前瞻传感器”,结合专家需求估计、异构负载均衡及异步执行引擎,有效解决了边缘设备上的 MoE 模型推理内存瓶颈,显著提升了吞吐量与推理速度。
该论文提出了一种通过闭环演化轨迹级经验来优化上下文提示的框架,利用强化学习筛选高效特征变换序列并结合多样性感知选择器与思维链引导大语言模型,从而在特征变换任务中显著提升了生成质量、多样性及下游预测性能。
本文介绍了 TAMUSA-Chat,这是一个面向学术机构的研究框架,通过监督微调、检索增强生成及系统化评估方法,将通用大语言模型适配为符合治理规范与责任 AI 原则的领域专用对话系统,并公开了相关代码以促进可复现的研究与部署。
该研究通过构建土耳其异常测试套件(TAS),系统评估了离线大语言模型在土耳其遗产语言教育中的鲁棒性与教学安全性,发现推理导向的 8B 至 14B 参数模型在成本与安全之间取得了最佳平衡,且异常抵抗能力并不完全取决于模型规模。
该论文从理论层面揭示了大型语言模型如何通过自回归过程精确推断令牌转换概率,从而阐明提示语义理解、上下文学习(通过减少歧义)以及思维链(通过任务分解)的内在机制,并论证了这些高级提示工程技巧在统计上的优越性。
该论文提出利用维基百科、Wikidata 知识图谱及社会科学专家知识构建了包含 2.6 万条多语言问答的"LatamQA"数据集,用于评估大语言模型在拉丁美洲不同国家及语言(西班牙语、葡萄牙语)背景下的表现,揭示了模型在区域知识掌握度、语言原生优势以及对伊比利亚文化相较于拉美本土文化的认知偏差等方面的显著不平等。
本文介绍了 SpreadsheetArena 平台,通过盲测 pairwise 评估来研究大语言模型在生成满足用户显性及隐性约束的电子表格工作簿时的表现,揭示了不同场景下偏好特征的显著差异以及现有模型在金融等专业领域最佳实践对齐方面的不足。
该论文挑战了将欺骗等同于说谎的假设,通过实验证明大型语言模型能在不产生虚假陈述的情况下进行欺骗,且现有的“测谎仪”式探针难以检测此类行为,从而揭示了当前机械式欺骗检测方法的重大盲区。