Behaviour Driven Development Scenario Generation with Large Language Models

该论文通过构建包含 500 个用户故事和 BDD 场景的数据集,评估了 GPT-4、Claude 3 和 Gemini 在自动生成行为驱动开发场景中的表现,发现尽管 GPT-4 在文本相似度上得分更高,但 Claude 3 在人类专家评估中表现最佳,且研究揭示了提示策略、输入质量及参数设置(如温度设为 0)对生成效果的关键影响。

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

本文针对现有基准在评估企业级和 API 驱动场景下的指令遵循能力方面的不足,提出了基于真实业务模式的 FireBench 基准,该基准涵盖六大核心维度及 2400 多个样本,用于评估 11 种大语言模型在信息提取、客服及编码代理等场景中的表现,并开源以促进模型诊断与社区协作。

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

本文介绍了 RepoLaunch,这是首个能够自动解析依赖、编译代码并提取测试结果的智能体,它支持任意编程语言和操作系统,并通过仅需人工设计任务的自动化流程,实现了软件工程数据集的规模化构建,从而推动了编码智能体与大型语言模型的基准测试与训练。

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

该研究通过分析美国、中国和俄罗斯贡献者的资料与语言数据,揭示了不同文化背景下 Stack Overflow 用户在利他解决问题、自我宣传及学习导向等动机上的显著差异及其与平台活动的关联,旨在为大语言模型时代下的跨文化软件知识共享生态提供策略参考。

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

本文提出了一种通用框架,用于评估大语言模型从文本规范生成约束领域特定语言(如 OCL 和 Alloy)代码的能力,并通过实验发现其性能不如生成 Python 代码,同时揭示了上下文窗口大小、代码修复及多次尝试等策略对生成质量的关键影响。

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

Large-scale, Independent and Comprehensive study of the power of LLMs for test case generation

该研究通过大规模实证评估,首次全面分析了四种大语言模型在生成类级别单元测试中的表现,发现尽管推理式提示(如 GToT)能显著提升测试的可读性和可靠性,但幻觉导致的编译失败率依然高企,表明结合自动化验证与搜索式优化的混合方法才是实现生产级测试生成的关键。

Wendkûuni C. Ouédraogo, Kader Kaboré, Yinghua Li + 5 more2026-03-05💻 cs