Polynomial, trigonometric, and tropical activations

本文提出了一种基于正交基(包括埃尔米特多项式、傅里叶三角函数及热带化多项式)的激活函数族,通过简单的方差保持初始化成功解决了深度模型中的激活与梯度爆炸/消失问题,实现了在 GPT-2 和 ConvNeXt 等大规模任务上的有效训练,并揭示了多项式激活网络的代数结构及其在微调任务中通过埃尔米特插值逼近经典激活函数的潜力。

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

本文提出了名为 LLM-ProS 的新型评估方法,利用 2011 至 2024 年国际大学生程序设计竞赛(ICPC)世界总决赛的 166 道题目,对 GPT-4o、Mistral Large、Llama-3.1-405B 及 o1 系列等先进大语言模型在算法解题中的推理能力、准确性及效率进行了全面基准测试,并深入分析了训练方法、数据污染和思维链等因素对模型性能的影响。

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin + 1 more2026-03-03💬 cs.CL