Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS
该论文提出通过筛选关键身体地标子集并结合样条插值填补缺失数据,在巴西手语(LIBRAS)孤立手势识别任务中实现了比现有方法快 5 倍且精度相当甚至更优的轻量化解决方案。
3462 篇论文
该论文提出通过筛选关键身体地标子集并结合样条插值填补缺失数据,在巴西手语(LIBRAS)孤立手势识别任务中实现了比现有方法快 5 倍且精度相当甚至更优的轻量化解决方案。
该论文提出了名为 FRIDA 的轻量级框架,通过利用预训练 Stable Diffusion 模型的特征,实现了无需训练即可检测合成图像并准确归因其生成源,在 GenImage 基准测试中展现了跨生成器检测与源模型归因的卓越性能。
本文提出了 EgoMI 框架,通过从第一人称视角捕捉同步的手部操作与主动头部运动轨迹,并结合记忆增强策略,有效解决了人形机器人模仿学习中因视角差异导致的分布偏移问题,显著提升了半人形机器人的操作性能。
本文提出了一种名为 SPAN 的新方法,通过空间点对齐和 3D-2D 投影对齐机制,结合分层任务学习策略,解决了单目 3D 目标检测中因解耦预测导致的几何不一致问题,从而显著提升了检测性能。
本文提出了名为 V-Attack 的新型攻击方法,通过利用 Transformer 注意力机制中解耦且富含局部语义信息的“值特征”(Value Features)替代传统纠缠的 patch 特征,并引入自值增强与文本引导操纵模块,实现了对大型视觉语言模型(LVLMs)图像语义的精准可控对抗攻击,显著提升了攻击成功率。
本文提出了名为 AFRO 的自监督框架,通过在不依赖动作或重建监督的情况下,利用生成扩散过程联合建模正向与逆向动力学,成功解决了现有 3D 视觉预训练方法在机器人操作任务中因缺乏状态 - 动作动态建模而表现不佳的问题,显著提升了多任务下的操作成功率并展现出良好的可扩展性。
该论文提出了首个音频 - 视觉世界模型(AVWM)框架,通过构建包含双耳音频与视觉轨迹的 AVW-4k 数据集,并设计 AV-CDiT 多模态扩散 Transformer 模型,实现了在精确动作控制下对视听动态的高保真模拟,显著提升了智能体在连续视听导航任务中的表现。
该论文提出了一种针对带时间窗旅行商问题(TSPTW)的高效精确算法,证明了经典基准实例因结构可被利用而不再具备代表性,无法有效评估算法性能或作为机器学习训练集。
本文通过深入分析 VGGT 和中全局注意力模块的作用机制,提出了一种无需训练的加速方案,通过将早期层转换为帧注意力并结合 K/V 子采样策略,在显著提升多视图推理速度(最高达 10 倍)的同时保持了原有的精度与鲁棒性。
本文提出了 UniBYD 统一框架,通过结合统一形态表示、动态 PPO 算法及混合马尔可夫影子引擎,实现了从模仿人类演示到适应多样化机器人形态的强化学习策略探索,并在首个跨本体操作基准 UniManip 上取得了显著性能提升。
本文提出了一种名为“分解与组合”的自监督多模态骨架动作表示学习框架,通过分解融合特征以对齐单模态真值以及利用单模态特征作为自监督指导来增强多模态表示,从而在 NTU RGB+D 和 PKU-MMD II 等数据集上实现了计算成本与模型性能之间的优异平衡。
该论文针对扩散模型强化学习中的偏好模式崩溃问题,提出了 DivGenBench 基准测试并设计了方向解耦对齐(D²-Align)框架,通过方向性修正奖励信号在保持生成多样性的同时实现了更优的人类偏好对齐。
本文提出了名为 Preguss 的模块化细粒度框架,通过结合静态分析与大语言模型,利用潜在运行时错误引导验证单元构建与优先级排序,成功实现了对千行代码级大规模程序的高度自动化形式化验证,显著降低了人工验证成本。
本文针对数字语义通信中因离散调制和实际传输流程而特有的安全威胁,系统梳理了该领域的基础理论、架构差异、威胁景观及防御策略,并展望了未来的研究方向。
该论文针对面部伪造检测中的泛化难题,提出了一种名为 SeLop 的低秩正交子空间干预方法,通过识别并剔除导致虚假相关的低秩特征子空间,迫使模型聚焦于真实的伪造痕迹,从而在极少参数量下实现了卓越的跨域泛化性能。
该论文通过文献综述、访谈及从业者验证,提出了一种以组织目标为核心的评估框架,旨在解决在实施《通用数据保护条例》(GDPR)隐私设计(PbD)时,如何选择最契合组织需求的工程方法这一挑战。
本文提出了首个面向无线隐蔽通信的专用基准测试 CovertComBench,旨在评估大语言模型在该领域的能力,研究发现尽管模型在概念理解和代码生成方面表现优异,但在满足严格安全约束的数学推导上存在显著不足,表明当前大模型更适合作为辅助工具而非自主解决安全约束优化问题的方案。
该研究提出了一种基于弱监督补丁级预训练的框架(HerdNet),有效解决了北极复杂环境下驯鹿检测中背景异质性强、目标微小及类别不平衡等挑战,显著提升了多 herd 影像及独立年份测试集上的检测与计数精度,为大规模野生动物监测提供了可靠的自动化解决方案。
该论文提出利用生成器架构中通用的最终组件“污染”真实图像以训练检测器,并通过构建基于该组件的生成器分类体系,实现了在未见生成模型上高达 98.83% 平均准确率的泛化检测能力。
该论文提出了包含训练与测试集的 RegionDial-Bench 基准,并设计了通过强制引用边界框及全局 - 局部一致性奖励来强化多轮视觉推理的 RegionReasoner 框架,显著提升了检测与分割任务中的推理准确性、空间定位精度及语义一致性。