ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

本文提出了名为 ViTaPEs 的基于 Transformer 的架构,通过引入包含模态内局部编码与跨模态全局编码的两阶段位置注入机制,实现了任务无关的视触觉表征学习,在多项真实世界数据集的识别任务及机器人抓取场景中均展现出超越现有最先进方法的性能与零样本泛化能力。

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

本文介绍了 EROICA,这是首个面向大规模模型训练的在线性能故障诊断系统,它通过在线剖析和差异可观测性技术,在几乎不影响生产环境的前提下,实现了对涵盖约 10 万张 GPU 集群中软硬件混合故障的细粒度、全覆盖诊断,并在实际部署中取得了 97.5% 的成功率。

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan Zhai2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

本文针对直接偏好优化(DPO)中数据选择忽视模型演化状态的问题,提出了名为 SamS 的自适应批处理样本调度算法,该算法能根据模型学习反馈动态调整训练样本,从而在不修改核心算法且计算开销极小的情况下显著提升大语言模型的泛化性能。

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

DemoDiffusion 提出了一种无需特定任务训练或人机配对数据即可实现单样本人类模仿的机器人操作新方法,该方法通过运动学重定向将人类手势转化为粗略轨迹,并利用预训练扩散策略将其修正为符合机器人动作分布的可行轨迹,在 8 项真实世界任务中取得了 83.8% 的平均成功率。

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani2026-03-10🤖 cs.LG

Adopting a human developmental visual diet yields robust, shape-based AI vision

该研究提出了一种受人类视觉发育启发的“发展性视觉饮食”(DVD)课程,通过模拟人类从婴儿期到成年的视觉成熟过程(如视力、对比度和色彩感知的发展),成功引导 AI 模型从依赖纹理特征转向依赖形状信息,从而显著提升了其在形状识别、抗干扰及对抗攻击方面的鲁棒性,实现了更类人且高效的视觉系统。

Zejin Lu, Sushrut Thorat, Radoslaw M Cichy, Tim C Kietzmann2026-03-10🤖 cs.LG