Real Money, Fake Models: Deceptive Model Claims in Shadow APIs
本文首次系统审计了声称提供官方大模型服务的“影子 API",揭露了其中普遍存在的欺骗行为(如性能偏差高达 47.21%、安全行为不可预测及身份验证失败),并指出这些虚假服务严重损害了学术研究的复现性与有效性、用户利益及官方模型提供商的声誉。
177 篇论文
本文首次系统审计了声称提供官方大模型服务的“影子 API",揭露了其中普遍存在的欺骗行为(如性能偏差高达 47.21%、安全行为不可预测及身份验证失败),并指出这些虚假服务严重损害了学术研究的复现性与有效性、用户利益及官方模型提供商的声誉。
本文介绍了在 NLBSE'26 竞赛中提出的 LoRA-MME 方法,该方法通过低秩适应(LoRA)微调四种不同的代码预训练模型并采用加权集成策略,在实现多语言代码注释多标签分类高精度(加权 F1 0.7906)的同时,也揭示了模型集成带来的推理效率与最终得分之间的权衡。
本文提出了一种名为 MPBMC 的混合方法,利用图神经网络嵌入结合运行时设计统计信息对硬件属性进行功能聚类,从而显著提升了多属性有界模型检查(BMC)的验证效率。
该论文首次对大语言模型安全基准测试进行了多维评估,发现其在学术影响力上并无显著优势,且代码质量普遍低下,揭示了作者声望与代码质量之间的错位,并呼吁知名研究者带头提升标准。
本文提出了名为 iScript 的领域自适应大语言模型及其配套基准测试 iScript-Bench,通过构建多阶段数据合成流水线解决物理设计 Tcl 脚本生成中的数据稀缺难题,并采用两阶段训练与双重验证框架,显著提升了脚本生成的准确性与可靠性。
本文提出了 CLARC,这是一个基于真实 GitHub 仓库构建的 C/C++ 代码搜索基准,通过自动化流水线生成包含编译性验证、依赖分类及匿名化等挑战性场景的数据集,揭示了现有模型过度依赖词汇特征而缺乏语义理解能力的现状。
本文介绍了针对瓦隆地区多个工业领域的调查结果,评估了信息物理系统(CPS)在需求工程、系统设计、测试执行及工具应用等方面的鲁棒性实践现状,揭示了当前行业实践与前沿方法之间的差距与挑战,并与现有文献中的类似调查进行了对比分析。
本文提出了名为 Vibe Code Bench 的新基准,通过自主浏览器代理对 16 个前沿模型进行端到端 Web 应用开发评估,揭示了当前模型在从零构建应用方面仍存在显著局限,并强调了自测试机制及评估者一致性对结果的关键影响。
该论文通过构建包含 500 个用户故事和 BDD 场景的数据集,评估了 GPT-4、Claude 3 和 Gemini 在自动生成行为驱动开发场景中的表现,发现尽管 GPT-4 在文本相似度上得分更高,但 Claude 3 在人类专家评估中表现最佳,且研究揭示了提示策略、输入质量及参数设置(如温度设为 0)对生成效果的关键影响。
MOOSEnger 是一款专为 MOOSE 多物理场仿真环境设计的领域专用 AI 智能体,它通过结合检索增强生成与确定性的 MOOSE 感知解析、验证及执行工具,将自然语言意图转化为可运行的输入文件,并在基准测试中实现了远超纯大语言模型基线的 93% 执行通过率。
本文针对现有基准在评估企业级和 API 驱动场景下的指令遵循能力方面的不足,提出了基于真实业务模式的 FireBench 基准,该基准涵盖六大核心维度及 2400 多个样本,用于评估 11 种大语言模型在信息提取、客服及编码代理等场景中的表现,并开源以促进模型诊断与社区协作。
该研究通过对欧洲公共部门 16 个开源项目办公室(OSPO)的定性分析,归纳出六种组织原型,旨在为公共部门如何根据自身情境构建 OSPO 以推动开源软件采用、促进数字主权及提升服务质量提供战略指导与政策建议。
该研究提出了一种从 VR 应用商店用户评论中自动生成虚拟人物(Personas)的系统,用于 VR 课程中辅助无障碍需求讨论与设计,结果表明该方法能有效提升学生的同理心并挖掘潜在的无障碍需求。
本文介绍了 RepoLaunch,这是首个能够自动解析依赖、编译代码并提取测试结果的智能体,它支持任意编程语言和操作系统,并通过仅需人工设计任务的自动化流程,实现了软件工程数据集的规模化构建,从而推动了编码智能体与大型语言模型的基准测试与训练。
该研究通过分析美国、中国和俄罗斯贡献者的资料与语言数据,揭示了不同文化背景下 Stack Overflow 用户在利他解决问题、自我宣传及学习导向等动机上的显著差异及其与平台活动的关联,旨在为大语言模型时代下的跨文化软件知识共享生态提供策略参考。
针对模型驱动工程研究中数据集质量参差不齐、缺乏标准化评估的问题,本文提出了一种用于系统化衡量软件模型数据集质量、代表性和适用性的基准框架及统一平台。
本文提出了一种通用框架,用于评估大语言模型从文本规范生成约束领域特定语言(如 OCL 和 Alloy)代码的能力,并通过实验发现其性能不如生成 Python 代码,同时揭示了上下文窗口大小、代码修复及多次尝试等策略对生成质量的关键影响。
该研究通过大规模实证评估,首次全面分析了四种大语言模型在生成类级别单元测试中的表现,发现尽管推理式提示(如 GToT)能显著提升测试的可读性和可靠性,但幻觉导致的编译失败率依然高企,表明结合自动化验证与搜索式优化的混合方法才是实现生产级测试生成的关键。
本文提出了名为 TrashFuzz 的黑盒模糊测试算法,通过合规地调整路边常见物体(如垃圾桶)的位置来生成逼真的对抗场景,从而在无需使用不自然对抗补丁的情况下成功诱导 Apollo 自动驾驶系统违反交通法规。
本文详细阐述了利用 Uppaal 工具对分布式中间件 CARE 进行形式化建模、基于随机定时自动机网络的属性验证以及从抽象模型生成具体测试用例的全过程,旨在通过形式化方法提升该开源应用的可靠性。