Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models
本文提出了一种受人类认知启发的自适应推理框架,通过将视觉语言动作模型的骨干网络转化为复杂性检测工具,实现根据任务难度动态选择“执行”、“推理”或“中止”策略,从而在显著降低计算成本的同时有效避免灾难性失败。
3744 篇论文
本文提出了一种受人类认知启发的自适应推理框架,通过将视觉语言动作模型的骨干网络转化为复杂性检测工具,实现根据任务难度动态选择“执行”、“推理”或“中止”策略,从而在显著降低计算成本的同时有效避免灾难性失败。
本文提出了 SSR-GS 框架,通过引入预滤波 Mip-Cubemap 建模直接镜面反射、IndiASG 模块捕捉间接反射,并结合基于 VGGT 的视觉几何先验来抑制反射区域的损失权重,从而在复杂光照下实现了具有强镜面反射和多重互反射场景的逼真光泽表面重建。
该研究表明,通过简单的肺部裁剪等图像预处理方法,可以在保持胸片诊断准确性的同时有效抑制种族捷径学习,从而避免公平性与准确性之间的权衡困境。
该论文提出了一种利用几何约束和局部参数化光照模型,在通用相机标定中同时估计特征点位置与空间变化点扩散函数并解决平移模糊问题的方法,从而有效应对因需大量图像而难以避免的运动模糊挑战。
本文提出了名为 Mario 的统一框架,通过图条件化视觉语言模型和模态自适应图指令微调机制,有效解决了多模态图推理中的跨模态一致性与模态偏好异质性挑战,显著提升了大语言模型在多模态图上的节点分类与链接预测性能。
Logi-PAR 是首个将可微分逻辑规则注入神经网络的逻辑增强患者活动识别框架,它通过自动学习视觉线索的逻辑规则,不仅实现了超越现有视觉语言模型和 Transformer 基线的性能,还能提供可审计的规则溯源解释及反事实干预分析。
该论文提出了一种名为语义类分布学习(SCDL)的即插即用框架,通过类分布双向对齐和语义锚点约束机制,有效缓解了半监督医学图像分割中的监督与表示偏差,显著提升了包括少数类在内的整体分割性能并达到了最先进水平。
本文提出了 SPyCer,一种半监督物理引导网络,通过结合卫星影像像素信息与基于地表能量平衡及平流扩散反应方程的物理约束,利用多注意力机制实现了对近地表气温(NSAT)的连续、准确且物理一致的估算。
本文提出了一种由数字孪生驱动的自动化纺织分拣系统,该系统通过融合多模态感知、双机械臂操作及视觉语言模型(VLM),实现了对变形纺织品和异物的实时分类与识别,并在实际工业场景中验证了其高准确率与可靠性。
本文提出了名为 ICHOR 的自监督预训练方法,利用基于 3D 掩码自编码器的视觉 Transformer 在大规模多中心 ASL CBF 数据集上进行训练,显著提升了在多种下游诊断分类及图像质量预测任务中的表现,有效克服了 ASL 成像中数据标注稀缺和跨站点差异带来的挑战。
CATNet 提出了一种自适应补偿框架,通过时空循环同步、双分支小波去噪和自适应特征选择三大创新,有效解决了多智能体协同感知中的时序延迟与多源噪声问题,显著提升了复杂交通场景下的感知鲁棒性。
本文提出了 Wiki-R1,一种基于数据生成和课程采样的强化学习框架,通过构建与模型能力演进对齐的训练分布及可控的数据生成策略,有效弥合了预训练多模态大模型与知识型视觉问答任务之间的分布差距,并在 Encyclopedic VQA 和 InfoSeek 基准测试中取得了新的最先进性能。
该论文通过广泛实验发现,预训练与下游数据间的分布偏移是导致 ViT 深层性能下降的主因,并进一步提出在分布偏移较大时探测前馈网络激活、在偏移较小时探测归一化多头自注意力输出,能实现最优的分布外探测效果。
本文介绍了 WebChain,这是目前最大的开源人类标注真实网页交互轨迹数据集,通过独特的视觉 - 结构 - 动作三重对齐数据与双阶段中期训练策略,显著提升了 Web 智能体在复杂任务中的规划与定位能力。
本文提出了 Fusion4CA 方法,通过引入对比对齐模块、相机辅助分支、认知适配器及坐标注意力机制,在仅增加少量推理参数且大幅缩短训练周期的情况下,显著提升了基于 BEV 的 LiDAR-RGB 融合 3D 目标检测性能。
本文提出了无需训练且即插即用的 SpectralCache 框架,通过识别扩散 Transformer 去噪过程中在时间、深度和特征维度上的非均匀性,利用时步感知调度、累积误差预算和频域分解缓存技术,在保持生成质量与现有方法相当的同时实现了 2.46 倍的推理加速。
本文提出了 Dark3R 框架,通过利用大规模 3D 基础模型的师生蒸馏技术,仅基于噪声 - 清晰图像对训练,实现了在信噪比低于 -4 dB 的极端暗光条件下无需 3D 监督的鲁棒运动恢复结构(SfM)及新视角合成。
OpenFrontier 提出了一种无需训练、不依赖稠密 3D 建图或策略微调的通用导航框架,通过利用视觉 - 语言先验模型将导航前沿作为语义锚点,实现了在开放世界环境中高效且具备强零样本泛化能力的机器人导航。
本文提出了面向全景图像的“全景指代多目标跟踪(ORMOT)”新任务,构建了包含丰富视觉、时序及语言信息的 ORSet 数据集,并设计了基于大视觉语言模型的 ORTrack 框架,以解决传统多目标跟踪在视场受限和长程语言理解方面的挑战。
本文提出了 Fusion-CAM 框架,通过去噪梯度图、结合区域图贡献权重以及自适应像素级融合机制,有效弥补了现有类激活映射方法在细节清晰度与物体覆盖完整性之间的不足,从而生成更鲁棒、判别性更强的视觉解释。