UniBYD: A Unified Framework for Learning Robotic Manipulation Across Embodiments Beyond Imitation of Human Demonstrations
本文提出了 UniBYD 统一框架,通过结合统一形态表示、动态 PPO 算法及混合马尔可夫影子引擎,实现了从模仿人类演示到适应多样化机器人形态的强化学习策略探索,并在首个跨本体操作基准 UniManip 上取得了显著性能提升。
2528 篇论文
本文提出了 UniBYD 统一框架,通过结合统一形态表示、动态 PPO 算法及混合马尔可夫影子引擎,实现了从模仿人类演示到适应多样化机器人形态的强化学习策略探索,并在首个跨本体操作基准 UniManip 上取得了显著性能提升。
该论文针对扩散模型强化学习中的偏好模式崩溃问题,提出了 DivGenBench 基准测试并设计了方向解耦对齐(D²-Align)框架,通过方向性修正奖励信号在保持生成多样性的同时实现了更优的人类偏好对齐。
本文提出了名为 Preguss 的模块化细粒度框架,通过结合静态分析与大语言模型,利用潜在运行时错误引导验证单元构建与优先级排序,成功实现了对千行代码级大规模程序的高度自动化形式化验证,显著降低了人工验证成本。
该论文针对面部伪造检测中的泛化难题,提出了一种名为 SeLop 的低秩正交子空间干预方法,通过识别并剔除导致虚假相关的低秩特征子空间,迫使模型聚焦于真实的伪造痕迹,从而在极少参数量下实现了卓越的跨域泛化性能。
该论文通过文献综述、访谈及从业者验证,提出了一种以组织目标为核心的评估框架,旨在解决在实施《通用数据保护条例》(GDPR)隐私设计(PbD)时,如何选择最契合组织需求的工程方法这一挑战。
本文提出了首个面向无线隐蔽通信的专用基准测试 CovertComBench,旨在评估大语言模型在该领域的能力,研究发现尽管模型在概念理解和代码生成方面表现优异,但在满足严格安全约束的数学推导上存在显著不足,表明当前大模型更适合作为辅助工具而非自主解决安全约束优化问题的方案。
该论文提出利用生成器架构中通用的最终组件“污染”真实图像以训练检测器,并通过构建基于该组件的生成器分类体系,实现了在未见生成模型上高达 98.83% 平均准确率的泛化检测能力。
该论文提出了包含训练与测试集的 RegionDial-Bench 基准,并设计了通过强制引用边界框及全局 - 局部一致性奖励来强化多轮视觉推理的 RegionReasoner 框架,显著提升了检测与分割任务中的推理准确性、空间定位精度及语义一致性。
本文证明了将 Rényi 差分隐私(RDP)转换为 -差分隐私的最优规则,即通过取所有单阶 RDP 隐私区域交点所确定的逐点最大贸易函数,该规则在所有 RDP 配置和 Type I 错误水平下均具有最优性,且无法被任何其他黑盒转换方法在 Blackwell 意义上统一超越。
该论文提出了一种无需训练的测试时校正(TTC)方法,通过利用初始帧作为稳定参考锚点来校准自回归蒸馏模型在长视频生成过程中的随机状态,从而有效解决了误差累积问题,在几乎不增加开销的情况下实现了长达 30 秒的高质量视频生成。
本文介绍了一款名为 AirPulse 的 26 克蝴蝶仿生机器人,它通过模仿生物的低频拍翅与身体波动特性,并采用分层控制架构,首次实现了该尺度下尾翼缺失双翼平台的自主闭环飞行。
该论文从信息论角度分析了多模态学习中的模态竞争问题,提出了一种通过最大化特征与标签间总相关性(TCMax)来缓解竞争并捕捉模态交互的无超参数分类方法,其实验表现优于现有的联合与单模态学习方案。
这篇论文系统综述了 ACL 文献中关于 LGBTQIA+ 群体与自然语言处理(NLP)技术关系的研究,指出当前工作多侧重于被动识别偏见而非主动构建解决方案,并呼吁未来在利益相关者参与、交叉性、跨学科合作及非英语语言研究等方面采取行动,以推动更公正包容的 NLP 技术发展。
该论文提出了一种元博弈设计框架,通过在测试时约束下结合预训练策略与自适应规则,评估了在不同成本设置下强化学习、UCB 及大语言模型策略在重复定价博弈中是否能在理性选择下自发形成算法共谋。
ChimeraLoRA 提出了一种将类共享 LoRA 与多图像特定 LoRA 相结合的新方法,通过语义增强训练和基于狄利克雷分布的混合生成策略,在数据稀缺场景下合成既具多样性又富含细节的图像,从而显著提升下游分类任务的准确性。
本文提出了首个文档伪造检测零样本基准 DOCFORGE-BENCH,评估发现现有方法在真实部署场景下因伪造区域占比极低导致标准阈值严重失准,揭示了校准而非表征能力才是当前文档伪造检测面临的主要瓶颈。
本文提出了一种名为 MAQP 的多模态对抗质量策略,通过异构双补丁优化方案(HDPOS)和梯度级模态平衡策略(GLMBS),有效解决了基于 RGB-D 模态的机器人抓取中因深度无关性导致的现有对抗补丁方法失效问题,从而提升了人机交互中的抓取安全性。
该论文证明了对于大于约 35.31 的 范数,-近似格覆盖半径判定问题(-)是 NP 难的,其中逼近因子 大于 1 且当 趋于无穷大时收敛于 9/8。
本文介绍了 Uber Eats 构建的统一多语言、多垂直领域语义检索系统,该系统通过基于海量交互数据微调 Qwen2 双塔模型,结合 InfoNCE 与三元组损失训练及 Matryoshka 表示学习技术,在六个市场和三个业务垂直领域显著提升了召回率。
本文提出了一种名为 HRFNA 的混合余数浮点数值架构,该架构通过结合无进位余数算术与轻量级指数缩放,在 FPGA 上实现了高吞吐量、低资源消耗及严格误差界定的高效计算,显著提升了科学计算与 CAD 应用的能效与性能。