v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound
本文提出了名为 v-HUB 的视频幽默理解基准,通过包含非语言短视频及环境声音标注的多样化评估任务,揭示了当前多模态大模型在纯视觉幽默理解上的局限性,并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。
1863 篇论文
本文提出了名为 v-HUB 的视频幽默理解基准,通过包含非语言短视频及环境声音标注的多样化评估任务,揭示了当前多模态大模型在纯视觉幽默理解上的局限性,并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。
该论文针对视觉语言模型在多轮多模态对话中面临的安全挑战,构建了包含 4484 条标注对话的 MMDS 数据集及自动化红队测试框架,并提出了 LLaVAShield 安全审计系统,该系统在检测多轮对话中的隐蔽恶意意图和累积风险方面显著优于现有模型与工具。
该研究通过开发一种针对历史地图复杂性的双阶段 U-Net 深度学习流程,成功从 1925 至 1950 年的法国历史地图中提取并发布了首个覆盖全国的高精度城市足迹数据集,填补了 20 世纪 70 年代前法国城市扩张量化分析的空白。
本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对,并通过该基准对 22 种现有模型进行了全面评估,同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。
该论文针对 LiDAR 语义分割中标签噪声与域泛化双重挑战,首次建立了相关基准并提出了名为 DuNe 的双视图一致性框架,在多个数据集的含噪标签域泛化任务中取得了最先进性能。
该论文提出了名为 RECODE 的代理框架,通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化,显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。
该论文提出了一种统一帧内与帧间编码的实时神经视频压缩框架,通过引入自适应帧内编码机制有效解决了遮挡、新内容处理及误差累积问题,并采用双向两帧压缩设计,在保持实时性的同时显著提升了压缩效率与稳定性。
本文提出了名为 FALCON 的新范式,通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头,有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足,从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。
该论文提出通过筛选关键身体地标子集并结合样条插值填补缺失数据,在巴西手语(LIBRAS)孤立手势识别任务中实现了比现有方法快 5 倍且精度相当甚至更优的轻量化解决方案。
本文提出了名为 SynHLMA 的新框架,利用离散的人机交互表示和语言模型,实现了根据自然语言指令生成可变形关节物体的手部操作序列,并在生成、预测及插值任务中展现出优于现有技术的性能,同时支持机器人模仿学习抓取应用。
该论文提出了名为 FRIDA 的轻量级框架,通过利用预训练 Stable Diffusion 模型的特征,实现了无需训练即可检测合成图像并准确归因其生成源,在 GenImage 基准测试中展现了跨生成器检测与源模型归因的卓越性能。
本文提出了一种名为 SPAN 的新方法,通过空间点对齐和 3D-2D 投影对齐机制,结合分层任务学习策略,解决了单目 3D 目标检测中因解耦预测导致的几何不一致问题,从而显著提升了检测性能。
本文针对医学图像中多轮推理分割的新任务,构建了大规模数据集 MR-MedSeg 并提出了具备纠错机制的 MediRound 模型,有效解决了传统方法无法支持多轮实体级推理的问题。
本文提出了一种名为自适应多样性缓存(ADC)的免训练、即插即用模块,通过构建类别特定缓存并动态分配容量以增强稀有类别特征,有效缓解了基于视觉语言模型的人机交互检测中的长尾偏差问题。
本文提出了名为 V-Attack 的新型攻击方法,通过利用 Transformer 注意力机制中解耦且富含局部语义信息的“值特征”(Value Features)替代传统纠缠的 patch 特征,并引入自值增强与文本引导操纵模块,实现了对大型视觉语言模型(LVLMs)图像语义的精准可控对抗攻击,显著提升了攻击成功率。
该论文针对视觉 - 语言 - 动作(VLA)模型在未知架构和跨模型场景下缺乏通用对抗攻击的问题,提出了名为 UPA-RFAS 的统一框架,通过结合特征空间优化、鲁棒性增强训练及特定于 VLA 的注意力劫持与语义错位损失,成功生成了能够跨模型、跨任务及跨视角物理转移的通用对抗补丁。
本文提出了名为 AFRO 的自监督框架,通过在不依赖动作或重建监督的情况下,利用生成扩散过程联合建模正向与逆向动力学,成功解决了现有 3D 视觉预训练方法在机器人操作任务中因缺乏状态 - 动作动态建模而表现不佳的问题,显著提升了多任务下的操作成功率并展现出良好的可扩展性。
该论文提出了首个音频 - 视觉世界模型(AVWM)框架,通过构建包含双耳音频与视觉轨迹的 AVW-4k 数据集,并设计 AV-CDiT 多模态扩散 Transformer 模型,实现了在精确动作控制下对视听动态的高保真模拟,显著提升了智能体在连续视听导航任务中的表现。
本文通过深入分析 VGGT 和中全局注意力模块的作用机制,提出了一种无需训练的加速方案,通过将早期层转换为帧注意力并结合 K/V 子采样策略,在显著提升多视图推理速度(最高达 10 倍)的同时保持了原有的精度与鲁棒性。
该论文针对卫星遥感图像中船舶检测面临的尺度差异大和长宽比高等挑战,提出了一种名为 LiM-YOLO 的轻量化检测器,通过统计船舶尺度分布将检测头从传统的 P3-P5 层级调整为 P2-P4 层级以满足奈奎斯特采样条件,并引入组归一化线性投影模块以解决小批量训练下的梯度不稳定问题,从而在显著减少参数量的同时实现了优于现有方法的检测精度。