Snapmoji: Instant Generation of Animatable Dual-Stylized Avatars
本文提出了 Snapmoji 系统,通过高斯域自适应(GDA)技术将用户自拍即时转换为 3D 主风格头像并进一步应用二次风格化,从而在保留用户身份的同时生成可在移动设备上流畅动画的个性化双风格化虚拟形象。
7210 篇论文
本文提出了 Snapmoji 系统,通过高斯域自适应(GDA)技术将用户自拍即时转换为 3D 主风格头像并进一步应用二次风格化,从而在保留用户身份的同时生成可在移动设备上流畅动画的个性化双风格化虚拟形象。
本文介绍了 iProg 工具,它通过结合大语言模型与人类反馈的交互式结构化归纳编程方法,将科学数据分析任务分解为数据流图并生成代码,从而在开发速度、代码质量和系统性能上显著优于传统的低代码/无代码方案。
本文提出了名为 SceneEval 的评估框架及包含 500 个文本描述与详细标注的基准数据集 SceneEval-500,旨在通过细粒度的显性需求指标(如物体数量、属性及空间关系)和隐性期望指标(如支撑、碰撞及可导航性),全面且可解释地评估文本条件 3D 室内场景生成方法的语义连贯性与合理性。
该论文针对传统向后兼容学习(BCL)中强对齐约束损害新模型判别能力的问题,提出通过引入邻居驱动和优化驱动的原型扰动来松弛约束,从而在避免耗时回填的同时提升新模型在向后兼容学习中的性能。
本文提出了一种基于全同态加密的零信任中继架构,通过在无需暴露明文密钥的情况下实现中间重加密,有效解决了传统可信中继的安全隐患,并提升了量子密钥分发网络的可扩展性与安全性。
该论文提出了一种从 2D 对齐到 3D 合理性的统一框架,通过融合异构基础模型先验进行 2D 结构对齐,并引入无穿透扩散模型优化 3D 空间交互,从而在单目图像中实现抗遮挡、无穿透且符合物理真实性的双手重建。
该研究介绍了名为 MediTools 的基于大语言模型的医疗教育原型应用,通过提供皮肤科病例模拟、AI 增强版 PubMed 文献分析及医疗新闻摘要等工具,旨在革新医学教育并提升临床决策能力,同时通过针对医疗从业者的调查验证了其初步效果。
本文针对 6G 系统,提出了一种基于推式与拉式通信的 Medium Access Control (MAC) 协议分类体系,制定了面向目标(如时效性和数据相关性)的设计准则,并构建了两者共存框架及其在 O-RAN 中的集成架构。
本文提出了一种结合场景约束的点云实例补全模型,通过引入稀疏场景约束点云和交叉注意力机制,解决了现有方法在处理非规范姿态物体及忽略场景约束方面的局限,并构建了新的 ScanWCF 数据集以验证其在室内场景中实现高保真、无碰撞且合理的物体补全能力。
本文提出了一种名为 LEL 的 Lipschitz 连续性约束集成学习框架,通过在该框架的 Transformer 注意力机制等模块中施加 Lipschitz 约束并结合可学习的集成融合策略,有效解决了现有脑电情感识别方法在稳定性、高维非线性信号处理及抗噪性方面的不足,并在多个公开数据集上实现了优越的识别精度。
本文提出了 GeoNav,一种通过构建融合地理先验与视觉线索的双尺度空间表征(全局认知地图与局部场景图)并采用空间思维链机制,从而显著提升多模态大模型在复杂城市环境中基于语言指令进行无人机长距离导航能力的框架。
本文提出了一种受哺乳动物空间认知启发的任务导向通信框架,通过引入正交约束变分信息瓶颈(O-VIB)编码器,在严格带宽限制下实现多视角特征的高效压缩与边缘协同定位,从而在资源受限的移动平台上达成高精度城市视觉定位。
该论文通过对比贝叶斯优化、穷举搜索、遗传算法和随机梯度下降在工业机器人基座位姿优化中的表现,发现随机梯度下降在任务成功率上表现最佳,而遗传算法则能实现最低的最终成本,从而为自动化部署提供了有效的算法基准。
本文提出了一种名为 SFIBA 的空间全目标不可见后门攻击方法,通过结合频域注入、形态约束及局部空间区域限制,在确保触发器视觉不可见性和针对所有类别的特定性的同时,实现了高效的黑盒多目标攻击并有效规避现有防御。
该论文首次提出了一种联合优化模块化机器人构型、基座位置及运动轨迹的 holistic 方法,在工业基准测试中显著缩短了循环时间并提高了可行性,且在真实世界验证中实现了快速部署。
本文提出了一种利用实时交通数据动态重规划网联自动驾驶车辆(CAV)路径的协同路由策略,通过在混合交通流中避免专用公交车道拥堵,显著提升了公交准点率与 CAV 的通行效率。
这项针对 94 名新手咨询师的随机研究表明,结合大语言模型模拟练习与结构化反馈的训练模式,能显著提升学员的以人为中心微技能并维持共情能力,而仅进行模拟练习则无法带来技能进步甚至导致共情水平下降。
本文提出了首个用于稀疏视图 CBCT 重建的基础模型 DeepSparse,通过引入融合多视角 2D 与多尺度 3D 特征的 DiCE 网络架构,以及结合混合视角采样预训练和两阶段微调的 HyViP 框架,有效解决了现有方法计算需求高和泛化能力差的问题,显著提升了重建质量并降低了辐射风险。
本文提出了 HEXGEN-FLOW,这是一个专为异构 GPU 集群设计的框架,通过分层调度策略和基于仿真的参数调优,显著优化了多租户代理式 Text-to-SQL 工作流的推理性能,有效降低了延迟并提升了吞吐量。
本文提出了名为 M³CAD 的综合性基准数据集,旨在推动通用协同自动驾驶研究,该数据集包含多模态多车数据以支持多种任务,并引入了适应网络条件的多级融合方法以平衡通信效率与感知精度。