XAI for Coding Agent Failures: Transforming Raw Execution Traces into Actionable Insights
该论文提出了一种将大语言模型编程代理的原始执行轨迹转化为结构化、可解释洞察的系统性方法,通过结合领域特定的失败分类法、自动标注系统及混合解释生成器,显著提升了开发者(包括非技术人员)识别故障根因的速度与修复准确率。
6526 篇论文
该论文提出了一种将大语言模型编程代理的原始执行轨迹转化为结构化、可解释洞察的系统性方法,通过结合领域特定的失败分类法、自动标注系统及混合解释生成器,显著提升了开发者(包括非技术人员)识别故障根因的速度与修复准确率。
本文提出了 E-AdaPrune,一种基于视觉特征奇异值谱能量驱动的自适应视觉 Token 剪枝框架,它无需额外参数即可根据图像信息密度动态分配 Token 预算,在保持极低延迟的同时显著提升了多模态大模型的性能。
该论文基于交互主义和建构主义心理学理论,提出了一种融合个体特质与情境特征的机器学习方法,利用大型语言模型分析社交媒体数据以预测心理健康状态,在保持竞争力的同时显著提升了模型的可解释性。
本文提出了 DMM 框架,通过分阶段合并相似模型并利用归一化统计量合成伪数据进行知识蒸馏,实现了在无需原始数据的情况下高效融合高度异构的领域模型,从而在多个基准测试中取得了超越现有方法的性能。
该论文提出了一种名为“骨骼到图像编码”(S2I)的新方法,通过将骨骼序列转换为类图像格式,成功利用大规模预训练视觉模型进行自监督骨骼表征学习,有效解决了骨骼数据格式差异大及多模态动作识别中引入额外分支的难题,并在多个基准数据集上验证了其优越的泛化能力。
本文提出了 ProCap 框架,通过从静态图像对比转向动态过程建模,利用稀疏关键帧和可学习的过程查询来显式捕捉变化过程,从而生成更准确描述图像间差异及其发生方式的变化描述。
该研究提出了一种基于大语言模型的多智能体系统,通过整合检索增强生成、实时搜索及专业微调技术,在技术可行性与市场可行性维度上自动化评估新产品概念,其评估结果与资深行业专家高度一致,有效解决了传统方法的主观偏差与高成本问题。
该报告通过与巴基斯坦 Sialkot 地区行业领袖合作,利用包含 4,414 张高分辨率图像的新数据集,结合 YOLOv8、ResNet-152 和 EfficientNet-b4 等深度学习架构,开发自动化光学检测系统以识别和修复手术器械缺陷,从而提升制造标准并保障患者安全。
本文提出了名为 TADPO 的新型策略梯度算法,通过结合离线轨迹的教师指导与在线轨迹的学生探索,成功构建了首个能在极端地形下实现高速驾驶并具备零样本仿真到现实迁移能力的端到端强化学习全尺寸越野车辆系统。
本文提出了 MM-ISTS,一种利用多模态视觉 - 文本大语言模型,通过双阶段编码机制、自适应查询特征提取及多模态对齐模块,有效解决不规则采样时间序列预测中上下文语义缺失与细粒度时序模式捕捉难题的框架。
该论文针对视觉 - 语言 - 动作(VLA)模型在指令与场景冲突时表现出的“语言盲视”问题,提出了无需训练且即插即用的指令引导注意力重校准(IGAR)方法,通过重构注意力分布显著提升了模型在分布外矛盾指令下的可靠性,同时保持了基线任务性能。
该论文提出了名为 RepKAN 的新型架构,通过融合 CNN 的结构效率与 KAN 的非线性表征能力,在 EuroSAT 和 NWPU-RESISC45 数据集上实现了超越现有最先进模型的分类性能,同时为遥感图像分类提供了可解释的物理推理机制。
本文提出了 MASFactory,这是一个以图为核心的 LLM 多智能体系统编排框架,通过引入将自然语言意图转化为可编辑工作流的“氛围图(Vibe Graphing)”人机协同方法,解决了复杂图工作流实现困难、复用性低及外部上下文集成复杂的问题,并在多个基准测试中验证了其有效性与一致性。
该论文针对敏感领域(如医疗、法律)中检索增强型意图澄清系统面临的隐私保护挑战,提出了通过定义攻击模型、设计检索级防御机制以及评估保护与效用权衡的三步研究框架,旨在构建能够作为敏感数据守门人的对话代理。
该论文通过构建反事实图像集并训练线性探针,分析了轻量级视觉语言模型在自动驾驶场景中对视觉概念的编码机制,揭示了感知失败(概念未线性编码)与认知失败(概念存在但语义对齐错误)两种主要故障模式,并发现物体距离增加会显著降低视觉概念的可分性。
该论文提出了 TempoSyncDiff,一种基于参考条件的潜在扩散框架,通过教师 - 学生蒸馏技术将推理步数大幅减少,从而在保持身份一致性和时序稳定性的同时,实现了低延迟、适合边缘部署的音频驱动说话头生成。
该论文通过引入 PyPDDLEngine 引擎,将大语言模型(LLM)转化为基于 PDDL 模拟的交互式分步规划代理,实证表明尽管其规划成功率仅比直接 LLM 规划略高且成本显著增加,但在特定难度下能生成更短路径,然而其性能提升受限于缺乏类似代码编译错误等外部验证信号,导致代理难以有效评估自身进展。
该研究评估了四种开源大语言模型在基于评分标准自动批改奥地利德语 A 级作文中的表现,结果显示尽管模型能利用标准化标准进行评分,但其与人类专家评分的一致性(最高仅 40.6%)远未达到实际教学评估的应用要求。
本文针对具有内在权重且存在攻击与支持关系的定量双极论证框架,提出了一种将攻击者与支持者分别聚合的“聚合语义”新家族,通过三阶段计算机制在保持双极性的同时增强了语义的可解释性与可参数化能力。
该论文提出了名为“情感连续口型生成”(EC-TFG)的新任务及相应的 TIE-TFG 模型,旨在通过文本和动态情感描述驱动生成能够展现自然、平滑情感过渡的高保真说话人脸视频,从而解决现有方法难以模拟人类连续情感变化的问题。