LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification
本文提出了 LE-NeuS 框架,通过 CLIP 引导的两阶段自适应采样和批量化命题检测两项优化,在保持神经符号方法长视频问答高准确率的同时,将推理延迟从基线方法的 90 倍大幅降低至约 10 倍,使其适用于对延迟敏感的边缘部署场景。
8877 篇论文
本文提出了 LE-NeuS 框架,通过 CLIP 引导的两阶段自适应采样和批量化命题检测两项优化,在保持神经符号方法长视频问答高准确率的同时,将推理延迟从基线方法的 90 倍大幅降低至约 10 倍,使其适用于对延迟敏感的边缘部署场景。
本文提出了一种无需传感器标定和深度先验的跨模态视图合成方法,通过“匹配 - 致密化 - 整合”流程结合 3D 高斯泼溅技术,有效解决了多模态数据对齐的工程难题并推动了大规模真实世界 RGB-X 数据的学习应用。
本文提出了“证据神经辐射场”(Evidential Neural Radiance Fields),这是一种能够单次前向传播同时量化场景建模中偶然性与认知性不确定性的概率方法,在保持高渲染质量的同时解决了现有神经辐射场在安全关键应用中缺乏可靠不确定性估计的问题。
本文提出了一种名为 CycleBEV 的框架,通过引入逆向视角变换网络并利用视角循环一致性(包括几何和表征空间)来正则化现有的视角变换模型,从而在不增加推理复杂度的前提下显著提升了自动驾驶中鸟瞰图语义分割的性能。
本文提出了 HDFLIM 框架,通过将预训练的冻结视觉和语言模型嵌入投影到共享的超维空间,并利用轻量级的符号操作(绑定、捆绑和检索)在无需微调参数的情况下实现高效的跨模态对齐与图像描述生成。
该论文提出了一种增量降维算法,通过分批处理图像特征并动态更新截断奇异值分解,在显著降低内存开销的同时加速了大规模视觉异常检测模型的训练,且保持了与现有最先进方法相当的检测精度。
本文探讨了扩展现实(XR)技术如何通过沉浸式环境革新教育,同时分析了其在提升学习体验方面的潜力与实施成本、技术复杂性及数据隐私等伦理挑战之间的平衡。
该论文针对现有第一人称人体姿态估计方法忽视关键点可见性标注的问题,构建了包含可见性标签的大规模 Eva-3M 数据集并提出了显式利用可见性信息的 EvaPose 方法,从而显著提升了姿态估计精度并实现了当前最优性能。
本文提出了首个专注于评估指令驱动图像编辑模型小目标编辑能力的基准 DLEBench,通过构建包含 1889 个样本的测试集及双模式评估协议,揭示了现有模型在处理小尺度物体编辑时的显著性能差距。
本文提出了 BuildAnyPoint,一种基于 Loosely Cascaded Diffusion Transformer 的生成框架,通过结合条件潜在扩散模型恢复点云分布与自回归 Transformer 生成紧凑网格,实现了从多样化点云数据中高质量的结构化 3D 建筑抽象重建。
该论文提出了一种名为语义解耦潜在导向(SDLS)的无需训练推理控制框架,通过大语言模型驱动的语义分解与 QR 正交化技术构建语义无关的干预向量,有效解决了放射学报告生成中的先验比较幻觉问题,在显著降低历史幻觉的同时提升了临床标签的准确性。
本文提出了一种名为 VL-WS 的视觉 - 语言语义 grounding 框架,通过融合冻结的 CLIP 文本嵌入与空间特征,实现了在跨域、多尺度及多生长阶段的复杂农业环境中高精度且泛化能力强的作物与杂草分割。
本文介绍了 rs-embed,这是一个 Python 库,旨在通过统一的区域(ROI)中心接口解决遥感基础模型在格式、平台和输入规格上的异构性问题,使用户能够以单行代码按需获取任意模型在任意地点和时间范围的嵌入向量,并支持高效的大规模批量处理。
HiDrop 提出了一种通过晚注入、凹金字塔剪枝和早退机制来对齐 MLLM 层级功能的新框架,在压缩 90% 视觉 Token 的同时保持性能并加速训练 1.72 倍,从而显著提升了多模态大模型的效率。
本文提出了一种基于增强现实(AR)的室内导航系统,通过结合 Vuforia 区域目标建模、NavMesh 组件及 A*算法,有效解决了传统室内导航依赖静态标识和 GPS 失效的问题,显著提升了校园等小范围场景下的导航精度、效率与用户体验。
EgoGraph 提出了一种无需训练的动态知识图谱构建框架,通过统一提取核心实体并建模跨时间跨实体的依赖关系,有效解决了超长第一人称视频理解中的长程推理难题,并在相关基准测试中取得了最先进性能。
该论文通过提出 VGUBench 基准测试,揭示了统一多模态大模型虽具备强大的文本推理与图像渲染能力,但在需要将推理结果转化为图像输出时却出现严重的语义一致性失效,表明其核心问题在于跨模态语义对齐的断裂而非生成保真度不足。
本文提出了 StemVLA,一种开源的视觉 - 语言 - 动作模型,通过显式融合预测的未来 3D 空间几何知识与聚合的历史 4D 时空表示,显著提升了机器人在动态环境中的空间推理与长程任务决策能力,并在 CALVIN 基准测试中取得了最先进性能。
针对现有基于重构误差的 AI 生成图像检测方法在扩散模型图像日益逼真时效果下降的问题,本文提出了一种利用重构误差差异(二阶差分)进行方差缩减的新方法,显著提升了检测的泛化能力与准确性。
UTPTrack 提出了一种简单统一的 Token 剪枝框架,首次通过注意力引导的 Token 类型感知策略联合压缩搜索区、动态模板和静态模板,在显著降低计算开销的同时实现了视觉跟踪任务中精度与效率的最优平衡。