YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search
本文提出了首个专为 YOLO 系列目标检测器设计的代理基准 YOLO-NAS-Bench,通过引入自进化机制优化预测器性能,有效解决了 YOLO 架构搜索中评估成本高昂的瓶颈问题。
3483 篇论文
本文提出了首个专为 YOLO 系列目标检测器设计的代理基准 YOLO-NAS-Bench,通过引入自进化机制优化预测器性能,有效解决了 YOLO 架构搜索中评估成本高昂的瓶颈问题。
本文提出了首个面向实时旋转目标检测的 Transformer 模型 RiO-DETR,通过内容驱动角度估计、解耦周期细化及面向旋转的密集监督等创新设计,有效解决了旋转检测中的语义依赖、角度周期性及搜索空间扩大等挑战,在多个基准数据集上实现了速度与精度的新平衡。
本文提出了一种统一所有布尔张量网络复杂性二分定理的框架,通过将未解决的计数问题按复数域上 2×2 矩阵构成的有限群分为九类,并分别利用矩阵转置闭包性质、克服涉及四元子群的实数化障碍、基于猜想推进一阶循环群情形以及解决高阶循环群情形,从而致力于构建涵盖整个问题类的最大统一定理。
CIGPose 提出了一种基于结构因果模型的因果干预图神经网络框架,通过识别并替换受视觉上下文混淆的关节点表示,结合分层图神经网络强制解剖合理性,从而在 COCO-WholeBody 数据集上实现了超越现有方法的鲁棒性与精度。
该论文提出了 MetaDAT 框架,通过元预训练优化预测器以适应快速在线更新,并结合基于在线梯度与难例选择的数据自适应机制动态调整学习率与更新频率,从而在跨数据集分布偏移场景下显著提升了轨迹预测的泛化能力与鲁棒性。
该论文指出 WebAssembly 模块中的二进制漏洞(如缓冲区溢出)可能破坏 Web 应用的安全机制并引发 SQL 注入等 Web 安全威胁,同时提供了相应的缓解策略与最佳实践。
本文构建了一个为代数相互作用组件模型赋予动力学的函子,该构造推广了人工生命领域中基于λ演算的 AlChemy 计算模型,并探讨了利用范畴论作为组织工具来形式化代数与动力学层面之间联系的未来方向。
本文提出了一种名为 GIIM 的基于图的学习框架,通过同时建模多视角医学图像中病灶的视图内依赖关系与跨视图动态变化,并有效处理缺失数据,显著提升了计算机辅助诊断的准确性与鲁棒性。
ShapeMark 提出了一种通过结构化噪声模式编码水印位并引入随机化设计来平衡鲁棒性与多样性的扩散模型水印方法,从而在保持生成质量的同时实现了在多种有损场景下的卓越鲁棒性。
该论文提出了一种结合流形感知采样、SE(3) 特定粒子更新及预条件技术的 Stein 变分梯度下降方法,有效解决了机器人复杂 3D 表面覆盖任务中非凸优化与 SE(3) 约束处理的难题,实现了优于现有方法的轨迹生成质量与收敛效率。
本文提出了 SEA-Nav 框架,通过结合微分控制障碍函数(CBF)安全屏蔽、自适应碰撞回放机制及运动学约束,实现了仅需分钟级训练即可在真实复杂密集障碍环境中进行安全且敏捷的四足机器人导航。
本文提出了 TopoOR,一种基于高阶拓扑结构的多模态手术室场景统一表示方法,通过保留实体间的成对及群组关系和流形几何特征,在无菌违规检测、机器人阶段预测及后续动作预判等任务中显著超越了传统的图神经网络和大语言模型基线。
本文报告了将需求工程课程系统融入面向专业人士的软件工程教育课程的经验,提出了整合原则并描述了一种基于课程内容映射的系统化方法。
本文介绍了 Patrologia Graeca 语料库,这是首个针对十九世纪复杂双语排版及退化多音调希腊文版《希腊教父集》的大规模开放 OCR 与语言学资源,通过专用流水线实现了极低错误率的文本识别,并提供了约六百万个标注词元,为古典希腊语研究及未来大语言模型训练确立了新的基准。
该论文提出了 OmniEarth 基准,这是一个包含 28 项细粒度任务、多源遥感数据及严格盲测协议的综合评估框架,旨在系统评估视觉语言模型在感知、推理和鲁棒性方面的地学任务能力,并揭示了现有模型在复杂地理空间场景中的显著差距。
本文提出了 MORE-R1,一种通过监督微调构建细粒度逐步推理数据并结合强化学习(GRPO)优化策略,以显著提升大视觉语言模型在跨模态对象 - 实体关系提取任务中性能与推理透明度的新方法。
本文提出了无需训练的 PruneSID 框架,通过协同重要性分析与多样性保持的两阶段策略及动态压缩机制,在显著降低视觉语言模型计算开销的同时实现了卓越的压缩性能与跨模态泛化能力。
本文提出了 StyleVLA,一种基于 Qwen3-VL-4B 的驾驶风格感知视觉语言动作模型,通过引入物理约束混合损失和构建大规模多风格指令数据集,实现了在轨迹可行性、风格适应性及综合驾驶表现上超越现有闭源模型及最先进 VLA 模型的自动驾驶决策能力。
本文提出了一种结合自注意力编码与坐标保持融合的两阶段组件感知框架,通过自注意力自编码器、坐标保持门控融合模块及空间自适应细化修正器,在多种面部与非面部数据集上显著超越了现有生成模型,实现了高保真、语义准确且空间对齐的草图到图像生成。
本文提出了对角蒸馏(Diagonal Distillation)方法,通过采用“前期多步、后期少步”的非对称生成策略并结合隐式光流建模,有效解决了现有视频蒸馏技术在长序列生成中运动连贯性差、误差累积及延迟过高的问题,实现了在保持高质量的同时将 5 秒视频生成速度提升 277.3 倍至 31 FPS。