LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving
本文提出了名为 LLM-ProS 的新型评估方法,利用 2011 至 2024 年国际大学生程序设计竞赛(ICPC)世界总决赛的 166 道题目,对 GPT-4o、Mistral Large、Llama-3.1-405B 及 o1 系列等先进大语言模型在算法解题中的推理能力、准确性及效率进行了全面基准测试,并深入分析了训练方法、数据污染和思维链等因素对模型性能的影响。