WalkGPT: Grounded Vision-Language Conversation with Depth-Aware Segmentation for Pedestrian Navigation
本文提出了 WalkGPT,一种将语言推理与分割统一于单一架构中的像素级大视觉语言模型,旨在通过多尺度查询投影和校准文本投影实现深度感知的无障碍导航指导,并发布了包含 4.1 万张图像的大规模基准数据集 PAVE 以验证其在地面导航任务中的有效性。
3447 篇论文
本文提出了 WalkGPT,一种将语言推理与分割统一于单一架构中的像素级大视觉语言模型,旨在通过多尺度查询投影和校准文本投影实现深度感知的无障碍导航指导,并发布了包含 4.1 万张图像的大规模基准数据集 PAVE 以验证其在地面导航任务中的有效性。
该研究通过实验发现,人类的效能信念会作为持久认知锚点引发对 AI 的盲目乐观,且情境信息对这种偏见的影响具有不对称性,导致效能信念与实际的协作绩效之间存在显著脱节,从而挑战了单纯依赖透明度的设计思路。
该研究通过构建包含非均匀血流、尺寸依赖性迁移及红细胞相互作用等关键生理特征的血管环境计算模拟模型,评估了血管内纳米机器检测早期癌症生物标志物的可行性,发现尽管真实血管输运机制会降低检测概率,但毛细血管在所有纳米机器尺寸下均表现出最高的检测成功率。
FutureVLA 提出了一种新颖的联合视动预测架构,通过预训练阶段的视动解耦门控机制与后训练阶段的潜在嵌入对齐策略,有效解决了现有视觉 - 语言 - 动作模型在建模时空连续性与视觉 - 动作解耦方面的不足,从而显著提升了智能体的预测能力与泛化性能。
本文提出了名为 MAVEN 的元强化学习框架,通过新颖的预测上下文编码器使单个策略能够从交互历史中推断系统动力学,从而在仿真与真实世界中实现了对四旋翼飞行器质量大幅变化及单电机严重推力损失等极端动态变化的零样本自适应与敏捷导航。
本文提出了 ASTER 框架,通过引入混合动力学信息状态种子(HDSS)初始化策略,成功解决了吊挂载荷四旋翼飞行器在严格姿态约束下奖励稀疏的难题,实现了首个自主倒飞及高敏捷性的零样本仿真到现实迁移。
该论文通过引入新的常数时间原语,证明了在联合移动模型下无需辅助假设即可实现可编程物质的亚线性时间通用重配置,具体给出了将任意结构在轮内重配置为规范线段结构的算法,并解决了 Padalkin 等人提出的开放性难题。
本文介绍了 eLasmobranc 数据集,这是一个专为支持细粒度物种分类和生物多样性监测而构建的公开图像数据集,包含来自西班牙地中海东部七种生态相关软骨鱼类的专家验证标注图像及元数据。
本文提出了一种名为 Just-in-Time (JiT) 的无需训练的框架,通过利用生成过程中的空间冗余性,基于稀疏锚点令牌动态加速扩散 Transformer 的推理,在 FLUX.1-dev 模型上实现了高达 7 倍的加速且几乎无损生成质量。
本文介绍了 Pneuma-Seeker 系统,该系统通过“关系具体化”机制将用户模糊的信息需求迭代转化为共享的关系模式,并利用 LLM 智能体架构在异构数据上发现源数据并生成可执行程序,从而有效解决了大模型在处理未明确定义意图时的脆弱性问题,显著提升了答案准确性与系统的可解释性。
该论文提出了一种基于旋转单光源和逐像素轻量级神经网络的无标定事件相机光度立体视觉系统,通过直接利用事件信号预测表面法线,有效解决了传统方法对受控光照的依赖,并在高动态范围、强环境光及稀疏事件区域展现出卓越的鲁棒性和精度。
该论文提出了名为 AttriGuard 的运行时防御机制,通过基于平行反事实测试的因果归因方法,在保持任务效用几乎无损的前提下,有效抵御了大语言模型代理面临的间接提示注入攻击。
该论文提出"CodePercept"框架,通过构建包含100万组“图像 - 描述 - 代码”三元组的大规模数据集(ICC-1M)及新基准(STEM2Code-Eval),利用可执行代码作为精确的感知媒介来增强多模态大模型在 STEM 领域的视觉感知能力,并证实了提升感知能力比单纯提升推理能力更能有效解决 STEM 视觉推理难题。
本文介绍了 RAGPerf,这是一个端到端的检索增强生成(RAG)系统基准测试框架,它通过将工作流解耦为模块化组件、支持多样化的数据与模型配置,并自动化收集性能与准确性指标,从而实现对 RAG 系统行为的细粒度分析与评估。
本文提出了名为 Aceso 的自适应微服务部署系统,旨在通过结合碳强度、成本与延迟约束的智能优化策略,帮助中小型企业(SME)在区域受限的基础设施中实现比传统静态部署减少 37.4% 碳排放和 3.6% 运营成本的高效绿色部署。
该研究通过调查 25 名 K-12 教师在专业发展工作坊中使用 AI 生成评分量表的经历,发现尽管 AI 能有效提供结构清晰且详细的初稿,但教师仍强调需进行人工审核与修改以解决通用性、错位及定制化不足等问题,从而表明在确保教师控制权和工作流支持灵活定制的前提下,教师对采用此类 AI 工具持条件性接受态度。
该研究针对物联网网络中不断演变的威胁和概念漂移问题,提出了一种基于 LSTM 的增量联邦学习框架,利用 CICIoMT2024 数据集评估了多种策略在隐私保护、资源受限条件下维持非静态入侵检测系统长期性能与低延迟的平衡。
该论文提出了一种名为“条件退化引导”(CDG)的新范式,通过用策略性退化的条件替代传统的空提示来生成引导信号,从而在不增加额外训练或计算成本的情况下,显著提升了扩散模型在复杂组合任务中的语义控制精度。
该论文针对透明玻璃器皿中化学实验监测的难点,提出了包含新数据集 CTG 2.0 和融合局部 - 全局注意力机制与边界校准模块的 LGA-RCM-YOLO 模型,实现了高精度的相界面实例分割,从而为实验室自动化提供了一种可靠的视觉传感器。
本文通过分析流匹配框架下优化动力学的二次型几何特性,揭示了标准训练在跨样本干扰控制上的不足,进而提出了语义粒度对齐(SGA)方法,通过干预向量残差场有效缓解梯度冲突,显著提升了文本到图像合成模型的收敛效率与结构完整性。