Beyond Language Modeling: An Exploration of Multimodal Pretraining
该论文通过基于 Transfusion 框架的从头预训练实验,揭示了统一多模态预训练在表征学习、能力协同及世界建模方面的关键优势,并证明了混合专家(MoE)架构能有效解决语言与视觉数据在扩展性上的不对称问题,从而推动真正统一的多模态模型发展。
4144 篇论文
该论文通过基于 Transfusion 框架的从头预训练实验,揭示了统一多模态预训练在表征学习、能力协同及世界建模方面的关键优势,并证明了混合专家(MoE)架构能有效解决语言与视觉数据在扩展性上的不对称问题,从而推动真正统一的多模态模型发展。
本文提出了名为"Tether"的机器人自主功能化玩耍方法,该方法通过将少量源演示动作锚定到目标场景的语义关键点来实现开环策略的轨迹形变,并结合视觉语言模型驱动的闭环迭代机制,在仅需少量演示的情况下实现了真实世界中的多任务自主探索,从而高效生成大规模高质量数据以训练出媲美人类示范的闭环模仿策略。
本文提出了名为 ULTRA 的统一多模态控制框架,通过物理驱动的神经动作重定向算法和结合强化学习的统一控制器,使仿人机器人能够仅凭第一人称视觉感知和高阶任务指令,自主完成泛化性强且鲁棒的全身移动操作任务。
该论文提出了一种结合力感知模仿学习与基于人类偏好微调的两阶段框架,使机器人能够仅凭少量数据在削皮等接触密集且成功标准主观的精细操作任务中实现高成功率,并展现出跨物体类别的强泛化能力。
本文提出了 MIBURI,这是首个能够基于实时对话生成同步且富有表现力的全身手势与面部表情的在线因果框架,通过结合身体部位感知的手势编解码器与二维因果生成模型,解决了现有具身对话代理动作僵硬或依赖未来语音上下文的问题。
本文提出了 Utonia,这是首个旨在通过自监督学习将遥感、LiDAR、室内 RGB-D 及 CAD 等多样化点云数据统一到一个编码器中的模型,其不仅实现了跨域表征迁移并提升了感知能力,还展现出在机器人操作与空间推理等具身及多模态任务中的显著潜力。
该论文提出了一种将一阶段目标检测中的分类任务替换为排序任务并采用平均精度损失(AP-loss)的新框架,通过结合感知机误差驱动更新与深度网络反向传播的算法解决其优化难题,从而在不改变网络架构的情况下显著提升了检测性能。
该论文提出了一种将单阶段目标检测中的分类任务替换为排序任务并采用平均精度损失(AP-loss)的新框架,通过结合感知机误差驱动更新与反向传播算法的优化方法,有效解决了极端前景 - 背景类别不平衡问题,并在多个基准测试中实现了优于现有方法的检测性能。
本文提出了名为 OmniTracker 的统一跟踪模型,通过“跟踪辅助检测”的新范式,利用单一共享架构和参数同时解决实例跟踪与类别跟踪任务,在消除冗余的同时实现了与专用模型相当甚至更优的性能。
本文提出了一种名为 RFAConv 的新型卷积模块,通过引入能够解决大卷积核参数共享问题的感受野注意力(RFA)机制,在几乎不增加计算开销和参数量的前提下,显著提升了卷积神经网络的性能。
该论文提出了一种“任务驱动”的镜头设计新范式,通过冻结预训练视觉模型并仅优化镜头参数,实现了从零基础自动设计出比传统镜头更适配下游计算机视觉任务、且具备更少光学元件和更稳定训练过程的新型镜头。
该论文提出了一种名为 TG-MIL 的拓扑引导多示例学习方法,通过引入拓扑保持约束来增强数据稀缺场景下的弱监督分类性能,在合成数据集、基准测试及罕见贫血分类任务中均显著优于现有最先进模型。
该论文提出了一种名为“距离索引”的新方法,通过显式提供物体运动距离信息并结合迭代参考估计策略,有效解决了视频帧插值中因速度模糊导致的轨迹歧义问题,从而显著提升了插值帧的感知质量并支持灵活的视频编辑。
本文提出了一种针对多模态数据的新型潜在部分因果模型,通过引入由无向边连接的潜在耦合变量来刻画跨模态知识传递,从理论上证明了多模态对比学习(MMCL)所学习到的表示对应于这些潜在变量,从而深化了对 MMCL 机制的理解并验证了其在解耦表示、少样本学习及领域泛化中的实际有效性。
本文提出了结合数据增强、迁移学习和测试时增强策略的斑马鱼自动心血管评估框架(ZACAF),有效克服了传统监督模型在跨成像设置和突变类型上的泛化局限,成功实现了对 nrap 突变体等新型模型心脏功能的精准量化分析。
本文提出了一种名为 FiLo 的零样本异常检测方法,通过利用大语言模型生成细粒度描述和结合多尺度跨模态交互实现高质量定位,显著提升了在 MVTec 和 VisA 等数据集上的异常检测与定位性能并达到了最先进水平。
该论文通过理论证明锐度感知最小化(SAM)相比梯度下降(GD)具有更低的“简单性偏差”,并据此提出了一种名为 USEFUL 的算法,通过早期聚类识别并过采样特定样本以调整训练数据分布,从而显著提升了多种模型在多个数据集上的分布内泛化性能。
本文提出了名为 OS-Det3D 的两阶段训练框架,通过结合 LiDAR 几何线索生成类无关 3D 提案并利用联合选择模块进行筛选,有效解决了自动驾驶场景中相机 3D 检测器难以识别未知物体的问题,同时提升了对已知物体的检测性能。
本文提出了 PO-GUISE+,一种利用驾驶员姿态和交互物体信息引导 Transformer 令牌选择的多任务视频模型,旨在以显著降低的计算成本实现高效的分心驾驶行为识别,并在多个数据集及 Jetson 边缘计算平台上验证了其优越的性能与效率。
本文提出了名为 MSSPlace 的多传感器场所识别方法,通过融合多摄像头图像、LiDAR 点云、语义分割掩码及文本描述,利用晚期融合策略生成综合场所描述符,在 Oxford RobotCar 和 NCLT 数据集上实现了优于单模态方法的最先进性能。