A Trust-Region Interior-Point Stochastic Sequential Quadratic Programming Method

本文提出了一种用于求解具有随机目标函数及确定性非线性约束优化问题的信任域内点随机序列二次规划(TR-IP-SSQP)方法,该方法通过构建满足自适应精度条件的随机 Oracle 并结合内点法处理不等式约束,在标准假设下证明了其几乎处处收敛到一阶驻点,并在 CUTEst 测试集和逻辑回归问题上验证了其实际性能。

Yuchen Fang, Jihun Kim, Sen Na, James Demmel, Javad Lavaei2026-03-12🔢 math

Discovery of a Hematopoietic Manifold in scGPT Yields a Method for Extracting Performant Algorithms from Biological Foundation Model Internals

该研究通过机械可解释性方法,从单细胞基础模型 scGPT 中提取并验证了一个紧凑的造血算法,该算法在无需目标数据集重训练的情况下,在发育分支结构解析和细胞亚型分类等任务上显著优于现有主流方法,并揭示了其内部由特定基因程序构成的核心机制。

Ihor Kendiukhov2026-03-12🧬 q-bio

Robust Post-Training for Generative Recommenders: Why Exponential Reward-Weighted SFT Outperforms RLHF

该论文提出并理论证明了指数奖励加权监督微调(Exponential Reward-Weighted SFT)作为一种无需奖励模型、无需倾向性评分且完全离线的后训练方法,在抗奖励欺骗、可扩展性及理论保证方面均优于传统的强化学习人类反馈(RLHF)方法,能有效解决生成式推荐系统的对齐难题。

Keertana Chidambaram, Sanath Kumar Krishnamurthy, Qiuling Xu, Ko-Jen Hsiao, Moumita Bhattacharya2026-03-12🤖 cs.LG