Concept Drift Guided LayerNorm Tuning for Efficient Multimodal Metaphor Identification
本文提出了概念漂移引导的 LayerNorm 微调(CDGLT)框架,通过利用跨模态嵌入的球面线性插值生成概念漂移并结合提示构建策略,在显著降低训练成本的同时实现了多模态隐喻识别的当前最佳性能。
52 篇论文
本文提出了概念漂移引导的 LayerNorm 微调(CDGLT)框架,通过利用跨模态嵌入的球面线性插值生成概念漂移并结合提示构建策略,在显著降低训练成本的同时实现了多模态隐喻识别的当前最佳性能。
该论文提出了一种利用开源工具 HeyGem 将课程大纲转化为虚拟化身演唱歌曲的创新方法,旨在通过更具吸引力的视听形式提升学生对课程信息的关注度、情感连接及记忆效果。
该论文提出了一种噪声条件混合专家框架,通过噪声感知专家路由、通用模型专家专业化策略及信噪比衰减课程学习协议,将特征空间分解为专用子空间,从而在复杂噪声环境下显著提升了说话人验证的鲁棒性与泛化能力。
该论文提出了首个音频 - 视觉世界模型(AVWM)框架,通过构建包含双耳音频与视觉轨迹的 AVW-4k 数据集,并设计 AV-CDiT 多模态扩散 Transformer 模型,实现了在精确动作控制下对视听动态的高保真模拟,显著提升了智能体在连续视听导航任务中的表现。
该论文介绍了 MEGC2026 微表情挑战赛,旨在通过引入基于多模态大语言模型的微表情视频问答(ME-VQA)和长视频问答(ME-LVQA)两项新任务,推动微表情分析在复杂时空推理与多模态理解领域的研究进展。
本文提出了名为 VoxEmo 的综合基准,旨在通过引入分布感知软标签和提示词集成策略,评估语音大语言模型在跨语言、多语料库场景下对情感模糊性的建模能力及其与人类主观分布的契合度。
该论文通过对比虚拟现实(VR)与传统视频会议,利用主观实验分析了端到端延迟如何从感知层面的交互流畅性和认知层面的社会临场感两个维度影响用户体验,并揭示了两者在不同延迟条件下的内在关联机制,从而为优化沉浸式虚拟环境系统提供了指导。
本文提出了一种名为 TPIFM 的任务感知模型,该模型基于自由能原理,通过量化不同协作任务对网络延迟和卡顿的感知差异(即任务特定的最小可觉差),实现了对远程增强现实协作中感知交互流畅性的准确评估。
该研究通过控制实验,系统分析了网络延迟对网络虚拟白板中实用性与享乐性多维体验质量的影响,并深入探讨了这种影响在不同协作模式(顺序协作与自由协作)及不同呈现形式(有无虚拟化身)下的差异,旨在为优化此类系统的实际部署提供指导。
本文提出了 MORE-R1,一种通过监督微调构建细粒度逐步推理数据并结合强化学习(GRPO)优化策略,以显著提升大视觉语言模型在跨模态对象 - 实体关系提取任务中性能与推理透明度的新方法。
该研究提出了一种由大语言模型驱动的动态多模态表达生成方法,通过构建语义敏感提示实现教学指令与语音手势的协同,显著提升了虚拟现实中教学代理的拟人感、社会临场感及学习者的参与度与学习效果。
本文针对动态人机交互场景下的具身问答挑战,提出了包含动态与静态子集的新数据集 DynHiL-EQA,并设计了无需训练的 DIVRR 框架,通过相关性引导的视图细化与选择性记忆机制,有效解决了遮挡歧义并实现了高效推理。
该论文提出了一种名为 PiVOT 的新型视觉提示机制,通过利用预训练基础模型(CLIP)在线自动生成并优化视觉提示,引导跟踪器生成实例感知特征图以有效抑制干扰物,从而提升通用目标跟踪的性能。
本文介绍了 DCASE 2025 挑战赛中的第五项任务,即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准,旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展,使其具备接近人类水平的感知与交互能力。
本文提出了名为 Q-BAR 的量子增强混合框架,利用变分量子电路的高表达能力和参数效率,在数据稀缺条件下有效检测在线创作者内容中的语义突变异常。
本文提出了名为 Emotion Collider (EC-Net) 的双曲超图框架,该框架利用庞加莱球嵌入表示模态层次结构,并通过双向消息传递、双曲空间对比学习及自适应超边构建,在噪声或部分模态缺失的情况下显著提升了多模态情感识别的鲁棒性与准确率。
本文提出了 ModalImmune 框架,通过训练过程中可控地坍缩特定模态信息并结合自适应正则化、信息增益引导控制及曲率感知梯度掩蔽等技术,使多模态模型在面对输入通道丢失或损坏时仍能保持鲁棒性、收敛稳定性及重建能力。
本文提出了名为 TimeSpot 的基准测试,旨在评估视觉语言模型在真实世界场景下仅凭视觉输入推断地理位置和时间信息的能力,结果显示当前最先进的模型在此类任务上表现不足,亟需新方法以实现鲁棒的地理时空理解。
本文提出了名为 CONSTANT 的基于扩散模型的单样本手写生成方法,通过引入风格感知量化、对比学习目标以及潜在空间补丁对比增强三大创新,有效解决了从单张参考图像中捕捉复杂手写风格特征并生成高质量、细节逼真手写图像的难题。
该论文提出了一种通过文本生成骨架序列再驱动视频扩散模型的两级级联框架,并构建了包含复杂杂技动作的合成数据集,有效解决了现有方法在生成翻跟头、空翻等复杂人体运动视频时面临的细粒度控制困难、数据匮乏及长序列姿态生成成本高昂等问题。