Re-Evaluating EVMBench: Are AI Agents Ready for Smart Contract Security?
该论文通过引入更广泛的模型配置和去污染的真实世界数据集,重新评估了 EVMBench 基准测试,发现 AI 智能体在智能合约安全审计中存在结果不稳定、无法独立完成端到端漏洞利用以及受脚手架影响显著等局限,从而挑战了全自动 AI 审计即将实现的乐观预期,并主张采用人机协同的审计工作流。
3447 篇论文
该论文通过引入更广泛的模型配置和去污染的真实世界数据集,重新评估了 EVMBench 基准测试,发现 AI 智能体在智能合约安全审计中存在结果不稳定、无法独立完成端到端漏洞利用以及受脚手架影响显著等局限,从而挑战了全自动 AI 审计即将实现的乐观预期,并主张采用人机协同的审计工作流。
本文提出了 PolGS++,一种通过集成偏振 BRDF 模型和深度引导可见性掩码机制,在无需昂贵光线追踪的情况下实现快速、高质量反射表面重建的物理引导高斯泼溅框架。
该论文通过识别并验证视觉 Transformer 中触发器的线性方向,揭示了不同后门攻击的内部处理机制差异,并据此提出了一种无需数据的权重检测方案,证明了机械可解释性在诊断和解决计算机视觉安全漏洞方面的有效性。
本文提出了一种基于压缩树结构的广义数据超立方表示法,并构建了集成特征提取系统,以高效处理地球科学中不规则、稀疏及分支的复杂数据集,从而弥补了传统数据立方模型在表达复杂数据空间与实现高效访问方面的不足。
本文提出了 HanMoVLM,这是一种针对中国绘画领域的大规模视觉语言模型,通过引入专家验证的思维链(CoT)和基于真实拍卖数据的 HanMo-Bench 数据集,实现了专业级的画作评估,并作为测试时扩展的核心组件显著提升了中国画作生成的质量。
该论文提出了名为 MEDISEG 的数据集,通过提供涵盖 32 种药片及 8262 张图像(包括重叠、遮挡等复杂场景)的实例分割标注,有效解决了现有药片识别数据集缺乏真实世界复杂性的问题,并验证了其在提升药物错误预防 AI 模型性能及少样本泛化能力方面的显著价值。
该研究通过构建可扩展的空间显式框架,利用地理加权分类模型量化了捷克局部区域人口特征与建成环境之间具有空间异质性的线性关系,揭示了建成环境类型在加剧社会空间不平等中的选择性作用。
该研究从部署导向视角出发,评估了基于两阶段目标检测框架的少样本药片识别系统在跨数据集视觉域偏移下的表现,发现虽然语义分类在极少样本下即可快速饱和,但在重叠和遮挡等复杂场景下定位与召回率显著下降,从而强调了训练数据真实性和诊断性评估对系统部署就绪的重要性。
本文提出了一种名为 MAD(内存分配多样性)的新方法,通过结合内存分配与软件多样性原则,利用两种新颖的空间多样化技术克服内存子系统熵不足的障碍,以硬件和软件无关的方式有效延缓 DRAM 错误(如 RowHammer 攻击),从而为系统响应争取宝贵时间。
该论文提出了一种基于霍奇分解的拓扑模型,用于将无服务器平台中的复杂信息流分解为可局部修正的组件与反映系统结构特性的谐波模式,并据此开发了一种通过引入“耗散效应”来制定修复策略的迭代分析方法,从而有效识别架构异常并优化系统性能。
本文提出了名为 UltrasoundAgents 的分层多智能体框架,通过模拟从病灶定位到局部特征分析再到证据整合的临床工作流,并结合解耦渐进式训练策略,实现了具有可追溯证据链和更高诊断准确性的乳腺超声辅助诊断。
本文介绍了 OSUM-Pangu,这是一个基于 OpenPangu-7B 大语言模型并在昇腾 NPU 全栈非 CUDA 环境下构建的开源多维语音理解基础模型,其通过分阶段训练策略实现了与主流 GPU 模型相当的任务准确率,为开源语音社区提供了可复现的非 CUDA 基准。
该论文针对多模态大语言模型在长上下文场景中因视觉 token 注意力随文本序列增长而衰减(即“视觉淡化”)的问题,提出了一种基于模态交互解耦的模态间距离不变位置编码(DIPE)方法,通过保留模态内相对位置并固定模态间感知邻近性,有效消除了模态间距离带来的惩罚,从而显著提升了模型在长上下文中的视觉 grounding 能力。
该研究通过对 81 名参与团队软件项目的学生进行四轮调查,发现开发者对文本消息的情感感知具有显著的个体内波动性和语句依赖性,且情绪特质与反应性等因素虽能微弱影响正面感知,但整体关联信号较弱,提示在解读情感分析结果时需警惕语境缺失带来的歧义。
本文提出了 FG-CLTP 框架,通过构建包含 10 万对多维接触状态的大规模数据集及量化语义对齐机制,实现了细粒度触觉表征学习,并进一步结合流匹配策略构建了 3D 触觉 - 语言 - 动作模型,显著提升了机器人接触丰富操作任务的性能。
该论文提出了一种名为 BiLaLoRA 的无监督真实图像去雾方法,通过利用 CLIP 构建语义对齐损失函数来指导去雾过程,并结合双层层位 LoRA 策略自动搜索并微调关键网络层,从而在无需参考图像的情况下显著提升了模型在复杂真实场景中的适应能力。
该论文提出了一种将强化学习与模型预测控制(MPC)相结合的接触显式分层架构,通过高层智能体学习非周期性步态来减轻 MPC 的接触时序计算负担,并在多种机器人平台上成功实现了无需域随机化的零样本仿真到现实迁移。
本文介绍了 VoxCare 系统,该系统利用可穿戴设备在实时不存储原始音频的前提下,通过提取声学特征和语音基础模型指导的框架,对医院医护人员的自然沟通行为进行量化分析,从而揭示沟通模式与工作压力及负荷之间的关系,为优化医疗交付提供数据支持。
本文提出了名为 S2D 的新颖流程,通过结合高效的一步扩散模型修复稀疏点云图像伪影,并设计具有随机采样丢弃和加权梯度的重建策略,实现了仅需极少输入视图即可生成高质量、3D 一致的 3D 高斯泼溅(3DGS)重建。
该论文通过形式化权威 DNS 响应选择机制,证明了其语义受限于 DNS 协议约束而具有有界性,并构建了一个基于可观察上下文和有限候选集的正常形式框架,从而为异构权威 DNS 系统的等价性、表达能力及语义组合提供了基于协议语义的统一定理基础。