Automating Detection and Root-Cause Analysis of Flaky Tests in Quantum Software
本文提出了一种自动化管道,利用大语言模型(LLM)和余弦相似度技术,成功将量子软件中的易失性测试数据集扩展了 54%(新增 25 个案例),并验证了 Google Gemini 等模型在检测易失性测试及分析其根本原因方面的高精度表现。
2282 篇论文
本文提出了一种自动化管道,利用大语言模型(LLM)和余弦相似度技术,成功将量子软件中的易失性测试数据集扩展了 54%(新增 25 个案例),并验证了 Google Gemini 等模型在检测易失性测试及分析其根本原因方面的高精度表现。
该论文提出了 PlayWorld,一种完全自主的管道,通过无监督的机器人自博弈学习高保真视频世界模型,从而在物理一致性、失败预测及现实世界策略性能上显著超越了依赖人类演示的传统方法。
本文提出了 WS-Net,一种结合状态空间建模与弱信号注意力融合的深度学习框架,通过多分辨率小波编码、Mamba 长程依赖捕捉及自适应门控机制,有效解决了高光谱解混中弱信号被主导端元掩盖的问题,并在多种数据集上显著提升了弱端元的丰度估计精度。
该论文提出了一种基于“堆栈理论”的保守评估工具包,通过区分语言模型代理在评估窗口内的成分式表现与单一决策步骤中的共现性,计算持久性得分以揭示其“谈论自我”与“组织自我”之间的本质差异。
本文介绍了 EPOCH,一种用于异构环境中多轮系统优化的工程协议,它通过划分基线构建与迭代自改进阶段、采用角色约束流程及标准化接口,实现了跨提示、代码和模型配置的协调优化,同时确保了生产级自主工作流的稳定性、可复现性与可追溯性。
该研究介绍了一种名为 Sentinel 的自主 AI 代理,它利用模型上下文协议(MCP)对远程患者监测数据进行多步推理和情境化分诊,在紧急敏感性等关键指标上超越了人类临床医生,同时以极低的成本实现了可扩展的自动化监测,从而解决了以往远程患者监测试验因数据过载而失败的核心难题。
本文提出了 Sim2Act 框架,通过引入针对决策关键状态的对抗性校准机制和组相对扰动策略,有效解决了仿真模型在关键区域预测误差导致的策略不稳定问题,从而在供应链等关键领域实现了更鲁棒的仿真到决策学习。
本文介绍了名为 Doki 的文本原生生成式视频创作界面,它通过让用户在单一文档中直接编写文本来定义素材、构建场景和编辑视频,从而将视频创作过程与自然的写作习惯对齐,并通过部署研究验证了其降低专业门槛、提升可访问性的潜力。
本文提出了 GST-VLA 模型,通过引入高斯空间分词器(GST)将视觉观测转化为具有内在几何结构的 3D 高斯原语,并结合 3D 深度感知思维链(DA-CoT)推理机制,显著提升了机器人在 LIBERO 和 SimplerEnv 等基准测试中的 3D 感知与操作精度。
该研究通过融合基于微调 Qwen3 模型生成的中英文新闻情感数据与传统宏观指标,证实了在铝价高波动时期,情感增强的 LSTM 模型能显著提升预测精度与交易策略的经济效用(夏普比率从 0.23 提升至 1.04),并揭示了不同新闻来源、主题及事件类型对铝价预测的差异化影响。
本文提出了一种统一的潜在空间框架,通过构建涵盖表征形式与结构先验的分类体系、明确五大核心内部机制并制定闭环评估方案,系统性地总结了潜在世界模型在自动驾驶中的进展,并指明了实现决策就绪、可验证且资源高效自动驾驶的未来研究方向。
本文提出了一种基于 Transformer 的框架,通过联合对齐全局语义与基于空间注意力掩码的局部判别区域,实现了结合参考图像与文本描述的皮肤病变组成式检索,并在 Derm7pt 数据集上取得了优于现有方法的性能。
VIVID-Med 提出了一种新颖的医疗视觉 Transformer 预训练框架,利用冻结的大语言模型作为结构化语义教师,通过统一医疗模式将临床发现转化为可验证的 JSON 字段状态对并采用结构化预测分解技术,在训练后丢弃大模型从而生成轻量级、可部署的纯视觉骨干网络,在多种医疗影像任务中实现了超越现有方法的高性能且数据高效的零样本泛化能力。
本文提出了名为 PM-Nav 的先验地图引导具身导航框架,通过将环境地图转化为语义先验地图并结合分层思维链提示与多模型协同机制,有效解决了功能建筑中特征高度相似导致的导航难题,在仿真与真实场景中相比现有方法实现了显著的性能提升。
本文提出了 DexHiL,这是首个针对灵巧操作视觉 - 语言 - 动作(VLA)模型的人机协同后训练框架,通过集成臂手协调干预、干预感知数据采样及轻量级遥操作接口,显著提升了机器人在复杂任务中的成功率。
本文提出了 QUSR 模型,通过结合利用多模态大语言模型生成质量先验的 QAP 模块和根据不确定性自适应调整噪声强度的 UNG 模块,有效解决了真实场景下退化未知且非均匀导致的图像超分辨率细节丢失与伪影问题。
该研究通过将多智能体大语言模型委员会建模为随机动力系统,发现即使在零温度()设定下,角色差异化与模型异质性仍会引发系统不稳定,从而论证了稳定性审计是构建多模型治理系统的核心设计需求。
该论文提出了一种基于概率必要性与充分性(PNS)的正则化方法,通过双范围反事实生成器消除类增量学习中的任务内和任务间虚假特征相关性,从而有效缓解特征冲突并防止灾难性遗忘。
该论文针对大语言模型在处理具有复杂层级和非规范布局的表格时难以进行长程推理的问题,提出了名为“深度表格研究(DTR)”的新框架,通过构建分层元图、引入期望感知选择策略以及利用孪生结构化记忆实现持续经验驱动,将表格推理形式化为闭环决策过程以显著提升多步推理能力。
本文提出了 DataFactory 框架,通过引入包含数据领导、数据库和知识图谱团队的协作多智能体架构,结合自动化数据转知识图谱映射与自然语言协商机制,有效解决了现有大模型在表格问答中面临的上下文限制、幻觉及复杂推理难题,并在多个基准测试中显著提升了准确率。