v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound
本文提出了名为 v-HUB 的视频幽默理解基准,通过包含非语言短视频及环境声音标注的多样化评估任务,揭示了当前多模态大模型在纯视觉幽默理解上的局限性,并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。
2385 篇论文
本文提出了名为 v-HUB 的视频幽默理解基准,通过包含非语言短视频及环境声音标注的多样化评估任务,揭示了当前多模态大模型在纯视觉幽默理解上的局限性,并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。
该论文提出了潜语音 - 文本 Transformer(LST),通过将离散语音令牌聚合为更高阶的潜语音补丁,解决了语音与文本模态间的序列长度不平衡问题,从而在提升计算效率的同时显著增强了跨模态对齐能力,并在语音理解、生成及下游任务中实现了性能与效率的双重优化。
本文介绍了 AlphaApollo 系统,该系统通过多轮智能体推理、多轮智能体学习(结合工具使用强化学习)以及多轮智能体进化(提出 - 判断 - 更新循环)三大核心组件,有效解决了基础模型在复杂长程推理中的能力瓶颈及测试时演进的不可靠问题,并在多个数学基准测试中显著提升了不同规模模型的性能。
本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对,并通过该基准对 22 种现有模型进行了全面评估,同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。
该论文提出了名为 RECODE 的代理框架,通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化,显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。
该论文提出了一种名为 REAP 的基于路由器门控值与专家激活范数的剪枝方法,证明在生成式任务中,相较于专家合并,剪枝策略能避免路由控制丢失带来的不可约误差,从而在大规模稀疏混合专家(SMoE)模型压缩中实现更优甚至无损的性能。
本文提出了名为 RL-100 的实世界机器人强化学习框架,该框架基于扩散视觉运动策略,通过统一模仿学习与强化学习并结合一致性蒸馏技术,在八个多样化的真实机器人任务中实现了 100% 的成功率,展现出卓越的零样本泛化能力、抗扰动鲁棒性及与人类专家相当甚至更优的操作效率。
本文提出了名为 FALCON 的新范式,通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头,有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足,从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。
本文提出了名为 SynHLMA 的新框架,利用离散的人机交互表示和语言模型,实现了根据自然语言指令生成可变形关节物体的手部操作序列,并在生成、预测及插值任务中展现出优于现有技术的性能,同时支持机器人模仿学习抓取应用。
本文提出了 GraphKeeper,一种通过知识解耦与保留机制解决图领域增量学习中嵌入偏移和决策边界偏差问题的新方法,在实现 negligible 遗忘的同时显著提升了现有图基础模型在多领域场景下的性能。
该论文提出了一种基于结构化正则化、鲁棒预处理和高效优化的多类校准方法,通过扩展逻辑回归参数化重校准函数,有效解决了复杂模型在有限校准数据下的过拟合问题,从而显著提升了校准性能并提供了开源实现。
该论文提出了名为“信息容量”的新指标,通过结合文本压缩性能与计算复杂度(特别是纳入常被忽视的分词器效率),对大语言模型的推理效率进行了统一评估,揭示了不同规模模型间信息容量的稳定性及主流模型的语言偏差,并为预测模型性能与指导未来扩展提供了有效依据。
本文提出了 LTSV 方法,通过结合上下文微调与时间块聚合技术,在时间序列基础模型上实现了兼具高效性、准确性及时间依赖捕捉能力的数据估值。
本文针对医学图像中多轮推理分割的新任务,构建了大规模数据集 MR-MedSeg 并提出了具备纠错机制的 MediRound 模型,有效解决了传统方法无法支持多轮实体级推理的问题。
本文提出了一种基于时间序列基础模型(TSFM)的上下文学习方法,通过无需微调或训练传统分类模型即可利用振动数据中的频域参考信号来评估伺服冲压机轴承的健康状态,从而展示了其在不同工况下的有效性并推动了向模型即服务(MaaS)或软件即服务(SaaS)模式的智能运维系统发展。
该研究提出了一种基于 Google Gemini 2.0 Flash 大语言模型的聊天机器人,通过 Python 自动化协调 Gmsh 和 GetDP 工具,实现了二维涡流电磁仿真模型的自动生成、求解及后处理,从而显著缩短了仿真建模时间。
本文提出了一种名为自适应多样性缓存(ADC)的免训练、即插即用模块,通过构建类别特定缓存并动态分配容量以增强稀有类别特征,有效缓解了基于视觉语言模型的人机交互检测中的长尾偏差问题。
该论文提出了一种名为“周期性异步”的框架,通过将推理与训练解耦为异步流水线并引入统一三模型架构,在保持严格在线策略正确性的同时,显著提升了大语言模型强化学习的端到端训练吞吐量。
该论文针对视觉 - 语言 - 动作(VLA)模型在未知架构和跨模型场景下缺乏通用对抗攻击的问题,提出了名为 UPA-RFAS 的统一框架,通过结合特征空间优化、鲁棒性增强训练及特定于 VLA 的注意力劫持与语义错位损失,成功生成了能够跨模型、跨任务及跨视角物理转移的通用对抗补丁。
该论文提出了一种基于通信约束先验的通用多智能体强化学习框架,通过解耦丢包与无损消息的影响并将其量化至全局奖励,有效解决了复杂动态环境下多智能体协作通信受限的挑战。