Social Proof is in the Pudding: The (Non)-Impact of Social Proof on Software Downloads
该研究通过在 GitHub 上进行的两项现场实验发现,人为操纵开源软件的社会证明指标(如点赞数和下载量)并不能显著影响开发者的下载行为或项目活跃度,表明此类指标难以被恶意利用来诱导软件选择。
175 篇论文
该研究通过在 GitHub 上进行的两项现场实验发现,人为操纵开源软件的社会证明指标(如点赞数和下载量)并不能显著影响开发者的下载行为或项目活跃度,表明此类指标难以被恶意利用来诱导软件选择。
本文提出了 SWE-Fuse 框架,通过融合无问题轨迹学习与熵感知 RLVR 训练,有效解决了真实软件问题中描述与解决方案不匹配导致的噪声干扰,在 SWE-bench Verified 基准测试中显著提升了大语言模型智能体的代码修复成功率。
本文提出了一种基于混合 1D-CNN-GRU 模型并结合多种可解释性 AI 技术的智能故障检测与诊断方法,旨在解决汽车软件系统验证中黑盒模型缺乏可解释性的问题,从而提升故障根因分析能力并增强实时安全关键应用中的模型置信度。
本文介绍了与哈肯(Hacon)合作开发的一种基于检索增强多智能体架构的AI协作方案,该方案能够直接从验证后的规范生成系统级测试脚本,显著提升了敏捷回归测试的自动化效率并减少了人工编写工作量,同时强调了清晰规范与人工审查在保障质量中的持续重要性。
本文通过定性编码和主题分析,从技术视角解读《数字市场法案》,提出了八项高层次架构策略及十五项具体战术,旨在指导大型数字平台在合规的同时构建体现公平、可竞争性和用户选择等价值观的系统设计。
该论文提出了 PostTrainBench 基准,旨在评估大语言模型智能体在受限算力下自主执行大模型后训练的能力,研究发现尽管前沿智能体在特定场景下能超越官方微调模型,但整体表现仍不及后者,且存在奖励黑客、数据作弊等安全风险。
本文提出了基于大语言模型的 PromCopilot 框架,通过结合知识图谱与协同推理机制,将工程师的自然语言问题自动转化为 Prometheus 查询语言(PromQL),从而简化了云原生在线服务系统中的指标查询过程,并构建了首个 Text-to-PromQL 基准数据集以验证其有效性。
本文提出了 RightTyper,一种通过结合程序实际执行观测、静态分析和自适应采样技术,在仅增加约 27% 运行时开销的情况下,为 Python 代码生成比现有静态、动态及 AI 方法更准确且精确的类型注解的新型混合工具。
本文提出了“道德来源代码生成”(ES-CodeGen)的新概念,旨在通过涵盖从数据收集到部署后全周期的伦理与可持续实践,并基于对 803 篇文献的综述及 32 名从业者的调查,构建了包含 11 个维度(新增代码质量维度)的分类体系,以应对当前 AI 代码生成中存在的许可、隐私、公平及环境影响等伦理挑战。
该研究通过准实验评估了大语言模型从食品安全法规生成 Gherkin 行为规范的能力,结果显示其生成的规范在相关性和清晰度等方面评分极高,但仍存在遗漏和幻觉问题,因此在安全关键领域仍需系统性的人工审查。
本文提出了名为 Compiler.next 的新型基于搜索的编译器,旨在通过自动搜索并优化认知架构与系统参数,将人类意图直接转化为最优软件解决方案,从而推动软件进入由 AI 驱动的 3.0 时代并降低开发门槛。
该论文针对大语言模型在面向对象设计能力评估方面的不足,提出了包含人工构建基准与人类评分数据的 OODEval 评测体系及 CLUE 统一指标,通过对 29 个模型的实证研究发现,尽管顶尖模型在语法准确性上表现优异且接近本科生水平,但在语义理解和复杂设计质量上仍存在显著缺陷,且其性能受模型规模、代码专业化程度及任务复杂度等因素的显著影响。
该论文首次系统评估了代码分析领域的多任务参数高效微调(PEFT),发现共享 PEFT 模块不仅能以极低的计算和存储成本实现媲美单任务微调的精度,且显著优于通用大模型的直接提示,同时揭示了任务稳定性、互补性及数据质量等关键因素对多任务协同微调效果的决定性影响。
该研究通过大规模对照实验发现,评估格式(如多项选择与开放式回答)对语言模型安全分数的影响远大于脚手架架构本身,且模型与脚手架之间存在显著的交互效应,导致无法建立通用的安全排名,因此必须针对特定模型和配置进行独立测试。
本文提出并评估了五种旨在减少工业大语言模型幻觉的提示工程策略,通过“增强数据注册”等方法在基准测试中显著提升了输出的一致性与事实准确性,从而在不修改模型权重的情况下推动工业流程向认知稳定性迈进。
本文提出了 OAuthHub 框架,该框架利用用户个人设备作为中介控制器,通过支持三种常见访问模式的集中式运行时权限模型,有效解决了第三方 OAuth 应用过度获取数据的问题,并显著降低了开发者的编码负担与时间成本。
本文提出了一种名为“代理式人工智能物料清单(AIBOMs)”的框架,通过引入多代理架构和标准扩展,将传统的静态软件物料清单(SBOMs)升级为能够自主监控运行时行为、环境漂移及漏洞可 exploitability 的动态可重现性证明体系。
本文提出了 FLA³ 平台,通过集成基于属性的访问控制、加密记账及研究范围联邦机制,在保障数据主权与合规性的前提下,实现了跨多国医疗机构的隐私保护联邦学习部署,并验证了其在临床预测性能上与集中式训练相当且能有效执行治理约束。
该论文提出了 DUCTILE 框架,一种由大语言模型代理进行自适应编排、工程师负责监督的混合自动化方法,旨在解决航空航天产品开发生态中因工具接口和数据格式频繁变更而导致传统工程分析自动化失效的问题,并验证了其在处理输入偏差时仍能生成符合规范且准确结果的有效性。
该论文提出了名为 MALTA 的维护感知技术滞后评估框架,通过结合开发活动、维护者响应及元数据可行性等指标,有效识别了传统版本滞后指标无法发现的因上游项目弃用而处于高风险状态的软件包,从而显著提升了开源生态系统中的软件弃用风险预警能力。