cs.SE 篇论文 | Gist.Science

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

本文首次系统审计了声称提供官方大模型服务的“影子 API"，揭露了其中普遍存在的欺骗行为（如性能偏差高达 47.21%、安全行为不可预测及身份验证失败），并指出这些虚假服务严重损害了学术研究的复现性与有效性、用户利益及官方模型提供商的声誉。

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

LoRA-MME: Multi-Model Ensemble of LoRA-Tuned Encoders for Code Comment Classification

本文介绍了在 NLBSE'26 竞赛中提出的 LoRA-MME 方法，该方法通过低秩适应（LoRA）微调四种不同的代码预训练模型并采用加权集成策略，在实现多语言代码注释多标签分类高精度（加权 F1 0.7906）的同时，也揭示了模型集成带来的推理效率与最终得分之间的权衡。

Md Akib Haider, Ahsan Bulbul, Nafis Fuad Shahid + 2 more2026-03-06💻 cs

MPBMC: Multi-Property Bounded Model Checking with GNN-guided Clustering

本文提出了一种名为 MPBMC 的混合方法，利用图神经网络嵌入结合运行时设计统计信息对硬件属性进行功能聚类，从而显著提升了多属性有界模型检查（BMC）的验证效率。

Soumik Guha Roy, Sumana Ghosh, Ansuman Banerjee + 2 more2026-03-06💻 cs

Benchmark of Benchmarks: Unpacking Influence and Code Repository Quality in LLM Safety Benchmarks

该论文首次对大语言模型安全基准测试进行了多维评估，发现其在学术影响力上并无显著优势，且代码质量普遍低下，揭示了作者声望与代码质量之间的错位，并呼吁知名研究者带头提升标准。

Junjie Chu, Xinyue Shen, Ye Leng, Michael Backes, Yun Shen, Yang Zhang2026-03-06🔒 cs.CR

iScript: A Domain-Adapted Large Language Model and Benchmark for Physical Design Tcl Script Generation

本文提出了名为 iScript 的领域自适应大语言模型及其配套基准测试 iScript-Bench，通过构建多阶段数据合成流水线解决物理设计 Tcl 脚本生成中的数据稀缺难题，并采用两阶段训练与双重验证框架，显著提升了脚本生成的准确性与可靠性。

Ning Xu, Zhaoyang Zhang, Senlin Shu + 10 more2026-03-06💻 cs

CLARC: C/C++ Benchmark for Robust Code Search

本文提出了 CLARC，这是一个基于真实 GitHub 仓库构建的 C/C++ 代码搜索基准，通过自动化流水线生成包含编译性验证、依赖分类及匿名化等挑战性场景的数据集，揭示了现有模型过度依赖词汇特征而缺乏语义理解能力的现状。

Kaicheng Wang, Liyan Huang, Weike Fang + 1 more2026-03-06💻 cs

Industrial Survey on Robustness Testing In Cyber Physical Systems

本文介绍了针对瓦隆地区多个工业领域的调查结果，评估了信息物理系统（CPS）在需求工程、系统设计、测试执行及工具应用等方面的鲁棒性实践现状，揭示了当前行业实践与前沿方法之间的差距与挑战，并与现有文献中的类似调查进行了对比分析。

Christophe Ponsard, Abiola Paterne Chokki, Jean-François Daune2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

本文提出了名为 Vibe Code Bench 的新基准，通过自主浏览器代理对 16 个前沿模型进行端到端 Web 应用开发评估，揭示了当前模型在从零构建应用方面仍存在显著局限，并强调了自测试机制及评估者一致性对结果的关键影响。

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Behaviour Driven Development Scenario Generation with Large Language Models

该论文通过构建包含 500 个用户故事和 BDD 场景的数据集，评估了 GPT-4、Claude 3 和 Gemini 在自动生成行为驱动开发场景中的表现，发现尽管 GPT-4 在文本相似度上得分更高，但 Claude 3 在人类专家评估中表现最佳，且研究揭示了提示策略、输入质量及参数设置（如温度设为 0）对生成效果的关键影响。

Amila Rathnayake, Mojtaba Shahin, Golnoush Abaei2026-03-06💻 cs

MOOSEnger -- a Domain-Specific AI Agent for the MOOSE Ecosystem

MOOSEnger 是一款专为 MOOSE 多物理场仿真环境设计的领域专用 AI 智能体，它通过结合检索增强生成与确定性的 MOOSE 感知解析、验证及执行工具，将自然语言意图转化为可运行的输入文件，并在基准测试中实现了远超纯大语言模型基线的 93% 执行通过率。

Mengnan Li, Jason Miller, Zachary Prince + 2 more2026-03-06💻 cs

FireBench: Evaluating Instruction Following in Enterprise and API-Driven LLM Applications

本文针对现有基准在评估企业级和 API 驱动场景下的指令遵循能力方面的不足，提出了基于真实业务模式的 FireBench 基准，该基准涵盖六大核心维度及 2400 多个样本，用于评估 11 种大语言模型在信息提取、客服及编码代理等场景中的表现，并开源以促进模型诊断与社区协作。

Yunfan Zhang, Yijie Bei, Jetashree Ravi + 1 more2026-03-06💬 cs.CL

Public Sector Open Source Program Offices - Archetypes for how to Grow (Common) Institutional Capabilities

该研究通过对欧洲公共部门 16 个开源项目办公室（OSPO）的定性分析，归纳出六种组织原型，旨在为公共部门如何根据自身情境构建 OSPO 以推动开源软件采用、促进数字主权及提升服务质量提供战略指导与政策建议。

Johan Linåker, Astor Nummelin Carlberg, Ciaran O'Riordan2026-03-06💻 cs

Auto-Generating Personas from User Reviews in VR App Stores

该研究提出了一种从 VR 应用商店用户评论中自动生成虚拟人物（Personas）的系统，用于 VR 课程中辅助无障碍需求讨论与设计，结果表明该方法能有效提升学生的同理心并挖掘潜在的无障碍需求。

Yi Wang, Kexin Cheng, Xiao Liu + 4 more2026-03-06💻 cs

RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform

本文介绍了 RepoLaunch，这是首个能够自动解析依赖、编译代码并提取测试结果的智能体，它支持任意编程语言和操作系统，并通过仅需人工设计任务的自动化流程，实现了软件工程数据集的规模化构建，从而推动了编码智能体与大型语言模型的基准测试与训练。

Kenan Li, Rongzhi Li, Linghao Zhang + 17 more2026-03-06🤖 cs.LG

Why Do You Contribute to Stack Overflow? Understanding Cross-Cultural Motivations and Usage Patterns before the Age of LLMs

该研究通过分析美国、中国和俄罗斯贡献者的资料与语言数据，揭示了不同文化背景下 Stack Overflow 用户在利他解决问题、自我宣传及学习导向等动机上的显著差异及其与平台活动的关联，旨在为大语言模型时代下的跨文化软件知识共享生态提供策略参考。

Sherlock A. Licorish, Elijah Zolduoarrati, Tony Savarimuthu + 3 more2026-03-06💻 cs

A Benchmarking Framework for Model Datasets

针对模型驱动工程研究中数据集质量参差不齐、缺乏标准化评估的问题，本文提出了一种用于系统化衡量软件模型数据集质量、代表性和适用性的基准框架及统一平台。

Philipp-Lorenz Glaser, Lola Burgueño, Dominik Bork2026-03-06💻 cs

A framework for assessing the capabilities of code generation of constraint domain-specific languages with large language models

本文提出了一种通用框架，用于评估大语言模型从文本规范生成约束领域特定语言（如 OCL 和 Alloy）代码的能力，并通过实验发现其性能不如生成 Python 代码，同时揭示了上下文窗口大小、代码修复及多次尝试等策略对生成质量的关键影响。

David Delgado, Lola Burgueño, Robert Clarisó2026-03-06💻 cs

cs.SE