NAAMSE: Framework for Evolutionary Security Evaluation of Agents
本文提出了 NAAMSE 框架,通过进化式反馈优化机制,利用自主智能体进行遗传提示变异和分层语料探索,实现了对 AI 代理在动态对抗环境下更全面、可扩展的安全评估,有效弥补了传统静态基准测试的不足。
3836 篇论文
本文提出了 NAAMSE 框架,通过进化式反馈优化机制,利用自主智能体进行遗传提示变异和分层语料探索,实现了对 AI 代理在动态对抗环境下更全面、可扩展的安全评估,有效弥补了传统静态基准测试的不足。
PhysDrape 提出了一种结合物理信息图神经网络与可微分两阶段求解器的混合框架,通过显式力平衡与碰撞约束机制,在确保零穿透的同时实现了具有更高物理保真度的实时服装 draped 模拟。
本文提出了 LLM4PQC 框架,利用反馈驱动的代理机制将后量子密码(PQC)参考代码自动重构为可综合的高层综合(HLS)C 代码并生成验证 RTL,从而显著降低了 PQC 硬件设计的手动工作量并加速了设计空间探索。
本文针对车联网协同感知中参数高效领域适应面临的性能下降与训练不稳定问题,提出了一种基于最优流理论的 FlowAdapt 框架,通过 Wasserstein 贪婪采样策略消除异构数据冗余,并利用渐进式知识转移模块缓解深层语义退化,从而在仅使用 1% 可训练参数的情况下实现了跨域适应的先进性能。
本文提出了 SToRM 框架,通过重要性预测、辅助路径监督训练及锚点 - 上下文合并模块,在显著降低多模态大模型计算成本的同时,实现了端到端自动驾驶任务中视觉 Token 的高效缩减且保持全 Token 性能。
本文提出了“智能体引导策略搜索(AGPS)”框架,通过利用多模态智能体替代人类监督者,将人类修正转化为精确的语义引导,从而显著提升了机器人强化学习的样本效率并实现了可扩展的自动化训练。
该论文通过名为 M2RL 的研究,系统对比并分析了大语言模型在多领域强化学习验证奖励(RLVR)任务中“混合多任务训练”与“分域训练后模型融合”两种范式的表现,发现跨领域 RLVR 干扰极小且推理密集型领域存在协同增益,并从权重空间几何等角度揭示了其内在机制。
本文提出了 SkillsBench 基准,通过 86 个跨领域任务评估发现,精心策划的 Agent 技能能显著提升大语言模型的平均通过率(+16.2%),且小模型借助技能可媲美无技能的大模型,但模型自主生成的技能往往无效,且技能效果在不同领域间存在显著差异。
本文提出了一种结合参数依赖李雅普诺夫函数与动态积分二次约束(IQC)的新框架,用于设计具有时变状态延迟的线性变参数(LPV)系统的状态反馈控制器,通过凸优化条件实现了降低保守性并提升闭环性能的目标。
本文提出了一种结合代码嵌入与意见动力学理论的新方法,通过量化分析开源项目中代码语义演化与开发者意见轨迹,揭示了协作模式、共识形成及开发者影响力等潜在的社会动态。
本文提出了一种符合 O-RAN 标准的延迟感知 RIS 编排器(DARIO)框架,该框架利用随机网络演算模型动态分配 RIS 设备,以在满足异构用户延迟与可靠性需求的同时,显著降低 6G 上行链路的通信延迟。
本文提出了一种将图神经网络动力学模型与利用结构特性的模型预测控制相结合的框架,通过图表示和定制化的消元算法实现了高维系统(如软体机器人)的实时高效控制,并在仿真与硬件实验中验证了其在千节点规模下的高精度跟踪与避障能力。
本文提出了 3DMedAgent,这是一种通过协调异构工具并利用长期结构化记忆,使现有的 2D 多模态大语言模型无需 3D 微调即可执行从感知到理解的渐进式 3D CT 分析的统一智能体,并在 DeepChestVQA 基准及 40 多项任务中展现了超越现有模型的卓越性能。
本文提出了 OVerSeeC,一种基于“理解 - 定位 - 合成”模块化流程的零-shot 框架,能够利用大语言模型和开放词汇分割技术,直接从卫星图像和自然语言指令中生成适应未知实体与复杂任务偏好的全局代价图,从而实现可扩展的自主导航规划。
本文以蓝牙低功耗平台为例,通过真实硬件验证发现后量子密钥交换中的通信开销往往超过计算成本,从而指出实现高效量子安全组网需协同优化协议配置与底层通信机制。
本文介绍了 ABD 基准,旨在评估前沿大语言模型在有限一阶世界中通过稀疏异常假设恢复可满足性的默认 - 异常归因能力,揭示了模型在有效性上的高表现与稀疏性差距及跨场景泛化失败模式。
本文针对开放词汇语义分割在未见域和未见类别上的泛化难题,提出了首个自动驾驶领域的开放词汇域泛化(OVDG-SS)基准,并设计了基于状态空间的 S2-Corr 机制以修正文本 - 图像关联失真,从而显著提升了模型在复杂城市场景中的跨域鲁棒性。
本文介绍了名为 INDUCTION 的基准测试,旨在评估大语言模型在有限结构中进行一阶逻辑概念合成的能力,通过精确模型检查验证公式正确性,并揭示了不同模型在任务难度、公式简洁性及泛化策略上的显著差异。
本文提出了一种名为 SKYLIGHT 的可扩展三维光子存内张量核心架构,通过共设计拓扑、波长路由、信号累加及编程机制,实现了支持实时推理与本地学习的百通道光子 AI 加速器,在能效和推理速度上显著超越现有 GPU 方案并展现出对硬件非理想性的强鲁棒性。
本文提出了 UniMatch,一种通过结合类无关 3D 分割、多模态大语言模型引导以及基于排名的对比学习,实现跨类别强非等形物体间稠密语义匹配的粗到细框架。