U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation
本文提出了 U-Mind,首个支持实时音视频生成的统一多模态交互框架,通过统一对齐推理架构与排练驱动学习策略,实现了语言、语音、动作和视频在单一交互循环中的高智能同步生成。
8894 篇论文
本文提出了 U-Mind,首个支持实时音视频生成的统一多模态交互框架,通过统一对齐推理架构与排练驱动学习策略,实现了语言、语音、动作和视频在单一交互循环中的高智能同步生成。
该研究通过利用β-VAE 生成的连续插值日文字符,对比了人类与视觉语言模型在单字识别及上下文语境下的决策边界差异,揭示了两者在解决字符歧义时的行为模式不同,并发现语境信息在特定条件下能提升模型与人类判断的一致性。
本文提出了一种名为 CausalProto 的无监督因果原型网络,通过结构因果模型和信息瓶颈约束实现病理特征与环境混杂因子的正交解耦,利用反事实干预消除数据偏差,从而在提升皮肤镜图像诊断准确率的同时,提供高纯净度的可解释性视觉证据。
本文提出了神经图像空间细分(NIST),这是一种轻量级的屏幕空间后处理技术,它利用几何法线与着色法线之间的差异作为线索,通过多尺度神经细分和隐式重映射机制,在不增加几何复杂度的情况下,以恒定开销实时生成媲美几何细分的平滑轮廓与视觉保真度。
本文提出了完全自监督的 Selfment 框架,通过构建自监督特征图、迭代块优化及对比学习,在无人工标注的情况下实现了超越现有无监督方法并媲美全监督水平的物体分割与伪装目标检测性能。
本文提出了首个名为 OPTIAGENT 的物理驱动智能体框架,通过构建专用数据集、注入领域知识及采用基于光学词典奖励的 DrGRPO 策略,成功利用大语言模型实现了无需专业背景用户也能自动完成高精度光学镜头设计的突破。
本文提出了名为 VideoPulse 的包含 52 名新生儿的面部视频数据集及端到端处理流程,利用 3D 卷积神经网络实现了从非接触视频中高精度估计新生儿心率和血氧饱和度(SpO2),为新生儿重症监护提供了低成本、非侵入式的监测方案。
本文提出了一种基于预训练视觉基础模型(DINOv3)的鲁棒性少样本 3D 血管分割框架,通过引入轻量级 3D 适配器、多尺度聚合器及 Z 通道嵌入技术,在数据稀缺和域偏移场景下显著超越了现有 nnU-Net 等主流方法,为临床冷启动应用提供了可靠解决方案。
本文针对荧光显微镜中因染料特性导致的焦点质量评估难题,提出了首个考虑染色特性的评估框架 FluoCLIP,通过构建新数据集 FluoMix 和基于 CLIP 的两阶段视觉 - 语言模型,实现了跨不同染色条件的焦点质量精准排序与泛化。
本文提出了 EMO-R3 框架,通过引入结构化情感思维引导逐步推理,并设计基于视觉 - 文本一致性与情感连贯性的反思性奖励机制,有效提升了多模态大语言模型在情感理解任务中的推理能力、可解释性及泛化性能。
本文提出了一种名为 BiM-GeoAttn-Net 的轻量级框架,通过结合双向深度 Mamba 模块以线性时间建模跨切片依赖关系,以及几何感知血管注意力模块来优化管状结构,从而在低对比度条件下实现了高精度的 3D 主动脉夹层 CTA 分割。
本文提出了 Sea²(See, Act, Adapt)框架,通过利用个性化 VLM 引导的智能体在无需下游标注和模型微调的情况下,仅凭标量感知反馈主动调整观测视角,从而有效解决了预训练感知模型在新环境中的跨域适应问题。
该论文提出了一种基于预训练 3D 几何基础模型的双臂操作框架,通过融合几何感知潜变量、2D 语义特征和本体感知,利用扩散模型联合预测动作序列与未来 3D 场景演化,从而在仅需 RGB 观测的情况下实现了优于现有方法的空间理解与协调操作能力。
本文提出了一种无需存储原始数据的足迹引导式持续学习框架,通过构建紧凑的形态学足迹和风格描述符来合成伪数据并蒸馏语言特征,从而有效解决了全切片图像病理报告生成中的灾难性遗忘及报告规范演变问题。
本文提出了一种基于 YOLOv8 的 CPN-YOLO 框架,通过引入可学习的大核去噪模块、PPA 注意力机制特征增强策略以及基于归一化 Wasserstein 距离的高斯相似性损失,有效解决了 SAR 图像中杂波噪声干扰和小目标漏检问题,在 HRSID 和 SSDD 数据集上实现了优于现有方法的鲁棒船舶检测性能。
本文提出了一种端到端的多模态框架,通过结合模态感知编码、双向跨模态注意力机制以及基于可学习特征字典的稀疏缺失感知元数据编码器,有效解决了 DICOM 序列分类中图像内容异质性、序列长度可变及元数据缺失或不一致等挑战,并在多个数据集上展现出优于现有基线的性能与泛化能力。
该论文提出了一种由偏振不确定性引导的扩散模型,通过引入文本到图像模型的生成先验并利用不确定性指导高误差区域的重建,有效解决了现有方法在颜色偏振图像去马赛克任务中偏振特性(DOP 和 AOP)重建误差大的问题。
NAU-QMUL 团队提出了一种结合预训练 BERT 和 CLIP 视觉编码器、跨模态特征融合及伪标签数据增强策略的多模态多任务模型,旨在检测 AI 生成图像并识别其生成模型,该方案在 CT2 竞赛的两项任务中均获得第五名,验证了其在现实场景中的应用潜力。
本文提出了无需训练的 ReSeg-CLIP 方法,通过利用 SAM 生成掩码构建分层注意力机制以优化 CLIP 的自交互,并结合基于文本提示评估权重的多模型参数融合策略,在无需额外训练的情况下实现了遥感图像开放词汇语义分割的领先性能。
该论文提出了一种基于 V2X 通信的带宽自适应云边协同方案,通过动态调整 Transformer 模型的层间分割与特征量化策略,在满足自动驾驶实时性约束的同时显著降低了端到端延迟并提升了 360 度 3D 感知精度。