SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning
SignSparK 提出了一种基于稀疏关键帧学习的大规模多语言手语生成框架,通过结合高效的 FAST 分割模型与条件流匹配(CFM)技术,在解决现有方法平滑度与准确性权衡问题的同时,实现了多语言手语的高质量、可编辑及快速合成。
3447 篇论文
SignSparK 提出了一种基于稀疏关键帧学习的大规模多语言手语生成框架,通过结合高效的 FAST 分割模型与条件流匹配(CFM)技术,在解决现有方法平滑度与准确性权衡问题的同时,实现了多语言手语的高质量、可编辑及快速合成。
本文提出了 DiT4DiT,一种通过统一级联框架将视频扩散 Transformer 与动作扩散 Transformer 耦合的端到端视频 - 动作模型,它利用视频生成过程中的中间去噪特征作为动作预测的时空条件,在显著降低训练数据需求的同时实现了机器人控制任务中的最优性能与强泛化能力。
该论文提出了一种基于黑格尔承认理论与弗洛伊德精神动力学构建的 AI 辅导系统,通过“承认增强提示”与“多代理自我/超我架构”显著提升了教学表现,并采用“氛围学术”(vibe scholarship)的反思性方法论,由 AI 辅助撰写并评估了包含三个模型实验结果的配套论文,以此探讨人机协作对师生及研究者关系的深层影响。
本文提出了一种名为 LCAMV 的鲁棒 3D 重建方法,通过解析建模校正投影机和相机的横向色差,并利用基于泊松 - 高斯噪声模型的最小方差估计自适应融合多通道相位数据,从而在无需额外硬件或多次曝光的情况下,显著提升了彩色物体的高精度 3D 重建效果。
本文提出了名为 SUBTA 的框架,通过结合学习到的意图估计、场景图任务规划和上下文相关的运动辅助,显著提升了双手机器人遥操作在结构化装配任务中的位置与姿态精度,并降低了用户的精神负荷。
该论文提出了首个面向具身场景的可行动地理定位基准 WanderBench,并设计了结合推理与物理动作的 GeoAoT 框架,通过将静态识别转化为交互式探索,显著提升了大语言多模态模型在全球图像地理定位任务中的细粒度定位能力与泛化性。
本文提出了 MoXaRt,一种利用视听线索实时分离复杂 XR 环境中多声源的系统,通过级联架构将语音理解能力提升了 36.2% 并显著降低了用户的认知负荷。
本文提出了 DepthCache,一种无需训练的免模型修改框架,通过利用深度信息引导视觉 Token 的差异化压缩及跨帧冗余消除,在显著降低视觉语言动作模型推理延迟的同时,有效保持了机器人控制所需的近场空间推理能力。
本文提出了名为 CIPHER 的训练-free 方法,通过构建反事实图像扰动数据集识别并抑制大型视觉语言模型中由视觉模态引发的幻觉,利用扩散模型编辑图像提取幻觉特征子空间,并在推理阶段将隐藏状态投影出该子空间,从而在保持任务性能的同时显著降低幻觉率。
该论文针对现代软件验证成本高昂且效果不佳的问题,提出利用“影响力稀疏性”将测试转化为无模型搜索任务,并介绍了名为 EZR 的随机学习器,仅需少量样本即可高效引导系统达成目标,从而取代传统的重型求解器。
该论文提出了名为 StructDamage 的大规模统一数据集,通过整合并重新标注 32 个公开数据集,构建了涵盖 9 种表面类型的 7.8 万余张图像,旨在解决现有裂缝检测数据缺乏多样性与一致性的问题,并为结构损伤检测提供可复现的基准资源。
该论文提出了一种基于自编码器的空间自监督峰值学习神经网络,通过利用空间与光谱信息生成注意力掩码来筛选具有空间结构的质谱成像峰值,并引入基于专家标注分割掩码的评估方法,在多个公开数据集上证明了其性能优于现有最先进方法。
本文提出了 IMTBench,这是一个涵盖四种实际场景和九种语言、包含 2500 个样本的新基准,旨在通过多模态协同评估指标解决现有端到端图像内翻译基准合成数据过多及评估维度单一的问题,从而推动该领域的发展。
该研究通过将人工智能计算部门纳入全球变化分析模型(GCAM),揭示了在迈向后通用人工智能时代的过程中,AI 电力需求并非线性增长,而是取决于效率提升轨迹与收入驱动需求的博弈,且价格机制调节作用有限,从而为评估 AI 扩张对电力系统和碳排放的长期影响提供了情景分析框架。
该论文提出了一种结合 ill-conditioned 约束的自回归流方法,通过将超高清图像去模糊分解为从粗到细的渐进式过程,并利用流匹配建模残差生成及条件数正则化抑制数值不稳定性,在保障推理效率的同时实现了 4K 及以上分辨率下的高细节恢复。
该论文提出了一种名为 VG-MedGen 的视觉引导文本解耦框架,通过跨模态潜在对齐机制和混合特征融合模块,有效解决了医学图像生成中文本与视觉模态间的差距及语义纠缠问题,从而实现了细粒度的可控生成并提升了下游分类任务性能。
本文提出了一种名为 STEPH 的新方案,通过超网络驱动的任务向量稀疏混合与模型合并技术,在无需大规模联合训练或复杂多模型推理的情况下,高效地从其他癌症类型中迁移泛化知识,显著提升了全切片图像(WSI)癌症预后预测的性能。
本文介绍并评估了一种名为 BinWalker 的四足机器人平台,该平台集成了机械臂与垃圾容器,旨在通过自主感知、移动和抓取能力,在难以到达的复杂户外环境中高效收集垃圾,从而为大规模环境清理任务提供可持续的自动化解决方案。
该论文通过对海量科学文献的语料库研究,揭示了词级图形在学术写作中应用稀少且以图标为主的现状,并提出了涵盖位置、功能与视觉表现的分类框架,旨在推动其在提升学术交流效率方面的潜力。
本文提出了一种集成压阻式触觉阵列与 FPGA 上卷积脉冲神经网络的事件驱动电子皮肤系统,通过动态二进制扫描策略实现了高达 99% 的数据稀疏性和显著的资源压缩,同时保持了 92.11% 的实时手写数字识别准确率。