OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency
本文提出了 OnFly,一种完全机载的实时零样本航拍视觉语言导航框架,通过共享感知双智能体架构、混合记忆机制以及语义几何验证与规划模块,有效解决了现有方法决策不稳定、长程监控不可靠及安全效率难以兼顾的问题,显著提升了任务成功率并验证了其在真实飞行中的可行性。
3447 篇论文
本文提出了 OnFly,一种完全机载的实时零样本航拍视觉语言导航框架,通过共享感知双智能体架构、混合记忆机制以及语义几何验证与规划模块,有效解决了现有方法决策不稳定、长程监控不可靠及安全效率难以兼顾的问题,显著提升了任务成功率并验证了其在真实飞行中的可行性。
本文提出了 A²-Edit 框架,通过构建包含 50 万对图像的大规模多类别数据集 UniEdit-500K,并引入混合 Transformer 模块与掩码退火训练策略,实现了仅凭粗略掩码即可对任意类别对象进行精确参考引导编辑的统一修复方案。
该论文提出了一种名为 MapGCLR 的半监督学习方法,通过在向量化的在线 HD 地图构建模型中引入基于重叠鸟瞰图特征网格的地理空间对比损失,利用多轨迹数据增强自监督训练,从而在减少标注依赖的同时显著提升了地图感知性能。
该论文受视觉皮层边界补全机制启发,设计了名为 BorderNet 的卷积神经网络滤波器,通过在多个数据集上测试条纹和网格两种遮挡情况,证明了该架构在提升图像遮挡鲁棒性方面的有效性。
UniCom 提出了一种基于压缩连续语义表示的统一多模态建模框架,通过注意力语义压缩器替代离散化与空间下采样,在保留丰富语义先验的同时实现了卓越的生成性能、图像编辑可控性及训练稳定性。
本文提出了 WalkGPT,一种将语言推理与分割统一于单一架构中的像素级大视觉语言模型,旨在通过多尺度查询投影和校准文本投影实现深度感知的无障碍导航指导,并发布了包含 4.1 万张图像的大规模基准数据集 PAVE 以验证其在地面导航任务中的有效性。
该研究通过实验发现,人类的效能信念会作为持久认知锚点引发对 AI 的盲目乐观,且情境信息对这种偏见的影响具有不对称性,导致效能信念与实际的协作绩效之间存在显著脱节,从而挑战了单纯依赖透明度的设计思路。
该研究通过构建包含非均匀血流、尺寸依赖性迁移及红细胞相互作用等关键生理特征的血管环境计算模拟模型,评估了血管内纳米机器检测早期癌症生物标志物的可行性,发现尽管真实血管输运机制会降低检测概率,但毛细血管在所有纳米机器尺寸下均表现出最高的检测成功率。
FutureVLA 提出了一种新颖的联合视动预测架构,通过预训练阶段的视动解耦门控机制与后训练阶段的潜在嵌入对齐策略,有效解决了现有视觉 - 语言 - 动作模型在建模时空连续性与视觉 - 动作解耦方面的不足,从而显著提升了智能体的预测能力与泛化性能。
本文提出了名为 MAVEN 的元强化学习框架,通过新颖的预测上下文编码器使单个策略能够从交互历史中推断系统动力学,从而在仿真与真实世界中实现了对四旋翼飞行器质量大幅变化及单电机严重推力损失等极端动态变化的零样本自适应与敏捷导航。
本文提出了 ASTER 框架,通过引入混合动力学信息状态种子(HDSS)初始化策略,成功解决了吊挂载荷四旋翼飞行器在严格姿态约束下奖励稀疏的难题,实现了首个自主倒飞及高敏捷性的零样本仿真到现实迁移。
该论文通过引入新的常数时间原语,证明了在联合移动模型下无需辅助假设即可实现可编程物质的亚线性时间通用重配置,具体给出了将任意结构在轮内重配置为规范线段结构的算法,并解决了 Padalkin 等人提出的开放性难题。
本文介绍了 eLasmobranc 数据集,这是一个专为支持细粒度物种分类和生物多样性监测而构建的公开图像数据集,包含来自西班牙地中海东部七种生态相关软骨鱼类的专家验证标注图像及元数据。
本文提出了一种名为 Just-in-Time (JiT) 的无需训练的框架,通过利用生成过程中的空间冗余性,基于稀疏锚点令牌动态加速扩散 Transformer 的推理,在 FLUX.1-dev 模型上实现了高达 7 倍的加速且几乎无损生成质量。
本文介绍了 Pneuma-Seeker 系统,该系统通过“关系具体化”机制将用户模糊的信息需求迭代转化为共享的关系模式,并利用 LLM 智能体架构在异构数据上发现源数据并生成可执行程序,从而有效解决了大模型在处理未明确定义意图时的脆弱性问题,显著提升了答案准确性与系统的可解释性。
该论文提出了一种基于旋转单光源和逐像素轻量级神经网络的无标定事件相机光度立体视觉系统,通过直接利用事件信号预测表面法线,有效解决了传统方法对受控光照的依赖,并在高动态范围、强环境光及稀疏事件区域展现出卓越的鲁棒性和精度。
该论文提出了名为 AttriGuard 的运行时防御机制,通过基于平行反事实测试的因果归因方法,在保持任务效用几乎无损的前提下,有效抵御了大语言模型代理面临的间接提示注入攻击。
该论文提出"CodePercept"框架,通过构建包含100万组“图像 - 描述 - 代码”三元组的大规模数据集(ICC-1M)及新基准(STEM2Code-Eval),利用可执行代码作为精确的感知媒介来增强多模态大模型在 STEM 领域的视觉感知能力,并证实了提升感知能力比单纯提升推理能力更能有效解决 STEM 视觉推理难题。
本文介绍了 RAGPerf,这是一个端到端的检索增强生成(RAG)系统基准测试框架,它通过将工作流解耦为模块化组件、支持多样化的数据与模型配置,并自动化收集性能与准确性指标,从而实现对 RAG 系统行为的细粒度分析与评估。
本文提出了名为 Aceso 的自适应微服务部署系统,旨在通过结合碳强度、成本与延迟约束的智能优化策略,帮助中小型企业(SME)在区域受限的基础设施中实现比传统静态部署减少 37.4% 碳排放和 3.6% 运营成本的高效绿色部署。