DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models
DevBench 是一个基于真实开发者遥测数据构建的代码生成基准测试,旨在通过涵盖六种语言和六类任务的 1800 个评估实例,在避免训练数据污染的同时,从功能正确性、语义推理及实际效用等多维度对大语言模型进行更具生态效度的评估与诊断。
2602 篇论文
DevBench 是一个基于真实开发者遥测数据构建的代码生成基准测试,旨在通过涵盖六种语言和六类任务的 1800 个评估实例,在避免训练数据污染的同时,从功能正确性、语义推理及实际效用等多维度对大语言模型进行更具生态效度的评估与诊断。
该论文提出了名为 MAS-Orchestra 的训练框架,通过将多智能体编排建模为函数调用强化学习问题来实现全局系统推理,并引入 MASBENCH 基准从五个维度严格评估任务特性,从而揭示了多智能体系统的收益取决于任务结构而非普遍适用,最终在数学推理等任务中实现了显著的性能提升与效率优化。
该论文提出了确定性 - 忠实性保障框架(DFAH),通过包含 4700 多次运行的实证研究揭示了金融领域工具型 LLM 代理的决策确定性与任务准确性之间缺乏相关性,从而论证了必须独立测量这两个指标以满足监管审计回放要求,并发布了相应的开源基准测试与压力测试工具。
该论文提出了一种面向 FPGA 的连续流数据率感知 CNN 推理架构,通过交错低数据率信号、共享硬件单元及优化并行化策略,解决了卷积层和池化层导致的数据率下降问题,从而在实现接近 100% 硬件利用率的同时显著降低了逻辑资源消耗,使得在单块 FPGA 上部署 MobileNet 等复杂网络成为可能。
本文提出了名为 MeanCache 的训练无关缓存框架,通过利用缓存的 Jacobian-向量积构建平均速度以替代瞬时速度,并配合轨迹稳定性调度策略,在 FLUX.1、Qwen-Image 和 HunyuanVideo 等模型上实现了显著加速(最高达 4.56 倍)的同时保持了优于现有基线的生成质量。
本文介绍了 BioAgent Bench,这是一个专为评估生物信息学 AI 代理性能与鲁棒性而设计的基准数据集和评估套件,通过涵盖端到端任务及压力测试,揭示了前沿模型虽能可靠构建复杂流程,但在面对输入扰动时仍缺乏稳健性,并指出了在隐私敏感场景下开源模型相较于闭源模型的适用性优势。
本文提出了开源本地部署的网络安全通用大模型 RedSage,通过构建大规模领域持续预训练数据与智能体增强微调流程,并引入 RedSage-Bench 基准测试,显著提升了模型在网络安全专业能力及通用推理任务上的表现。
本文提出了名为 R2M 的新型轻量级 RLHF 框架,通过利用策略模型在训练过程中的实时隐藏状态反馈来动态对齐奖励模型,从而有效解决了传统方法因依赖静态语义信息而导致的奖励过优化及分布偏移问题。
该论文提出将组合融合分析(CFA)应用于比特币价格预测,通过融合多个模型的评分与排名特征,显著提升了预测精度,实现了 0.19% 的 MAPE 并优于现有模型。
该论文通过对比 DeBERTa、RoBERTa 和 FinBERT 三种大语言模型,发现 DeBERTa 在基于新闻情感分析的股价预测中表现最佳(准确率 75%),而三模型集成可进一步提升至 80%,并证实了情感特征能轻微提升多种时序预测模型的性能。
该论文针对现有“运行中”数据 Shapley 方法因依赖 SGD 线性假设而无法适配 Adam 优化器的局限,提出了一种名为"Adam-Aware In-Run Data Shapley"的新方法,通过引入固定状态假设下的效用重定义及线性化幽灵近似技术,在保持接近标准训练吞吐量的同时,实现了对 Adam 优化器下数据贡献的高保真度(相关系数>0.99)且可扩展的精准评估。
该研究表明,在句子级人类价值观检测任务中,施瓦茨高阶价值观结构更适合作为归纳偏置而非刚性路由规则,且通过阈值调整和集成等校准方法比层级门控或独立使用紧凑大语言模型能带来更显著的性能提升。
该论文提出了受人类学习过程启发的 T2T(由厚变薄)动态奖励框架,通过在不正确尝试时鼓励“增厚”以扩展搜索空间、在正确后转为“变薄”以抑制冗余,有效解决了强化学习中的熵崩溃与过度冗长问题,显著提升了大语言模型在数学推理任务上的性能。
本文提出了特征 - 安全表(FSTab)框架,通过仅利用前端特征和源模型知识即可预测后端漏洞的黑盒攻击方法,以及量化模型在不同场景下漏洞复现一致性的评估机制,揭示了大语言模型生成软件中普遍存在且可跨领域迁移的重复性漏洞风险。
该论文介绍了针对从 arXiv 等来源提取的 920 万条数学定理构建的大规模语义检索系统,通过系统分析表示上下文、语言模型及提示策略等因素,在专业数学家构建的评估集上显著提升了定理级和论文级的检索效果,证明了在 Web 规模下实现有效语义定理搜索的可行性。
该论文提出了 LMMRec 框架,利用大语言模型通过思维链提示从文本中提取细粒度动机,并结合双编码器架构与对比学习策略,有效融合了异构文本信息与交互数据以提升多模态推荐性能。
本文提出了一种基于 Doob h-变换和鞅理论的随机分析方法,通过在不修改预训练得分网络的情况下引入显式漂移修正,为扩散模型建立了满足概率为一的硬约束的生成框架,并设计了两种利用预训练轨迹进行离线学习的算法以提供非渐近收敛保证。
本文提出了 NAAMSE 框架,通过进化式反馈优化机制,利用自主智能体进行遗传提示变异和分层语料探索,实现了对 AI 代理在动态对抗环境下更全面、可扩展的安全评估,有效弥补了传统静态基准测试的不足。
该论文提出了一种统一的扩散引导预训练框架,通过利用扩散模型指导结构感知的掩码与丢弃策略以及拓扑感知的全局重建,有效解决了现有脑图基础模型在预训练中破坏语义连接模式及缺乏全局结构信息的局限,并在大规模神经影像数据上验证了其性能优势。
该论文提出了一种名为 CoCoA 的免训练解码算法,通过利用大语言模型中间层表征的不一致性信号来识别并抑制幻觉,从而在不重新训练模型的情况下显著提升其在问答、摘要、推理及代码生成等任务中的事实准确性。