SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

本文提出了 SPIRAL 框架,通过构建包含规划、执行与反思的闭环机制,利用智能体分解动作与迭代优化,有效解决了现有视频生成模型在长程任务中语义对齐弱和时序漂移的问题,显著提升了可控长时视频生成的质量。

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee2026-03-10💻 cs

Information Maximization for Long-Tailed Semi-Supervised Domain Generalization

本文针对现有半监督域泛化方法在长尾类别分布场景下表现不佳的问题,提出了一种基于信息最大化原理的 IMaX 方法,通过引入α-熵目标优化特征与潜在标签间的互信息,有效缓解了类别不平衡偏差并显著提升了模型性能。

Leo Fillioux, Omprakash Chakraborty, Quentin Gopée, Pierre Marza, Paul-Henry Cournède, Stergios Christodoulidis, Maria Vakalopoulou, Ismail Ben Ayed, Jose Dolz2026-03-10💻 cs

Alfa: Attentive Low-Rank Filter Adaptation for Structure-Aware Cross-Domain Personalized Gaze Estimation

本文提出了 Attentive Low-Rank Filter Adaptation (Alfa) 方法,通过利用奇异值分解和注意力机制对预训练滤波器中的语义模式进行重加权,实现了仅需少量无标签样本即可高效适应用户特定特征的眼动估计模型,并在跨数据集基准测试中取得了优于现有方法的性能。

He-Yen Hsieh, Wei-Te Mark Ting, H. T. Kung2026-03-10💻 cs

Spherical-GOF: Geometry-Aware Panoramic Gaussian Opacity Fields for 3D Scene Reconstruction

本文提出了 Spherical-GOF,一种基于高斯不透明度场(GOF)的球面感知全景渲染框架,它通过在单位球面上直接进行射线采样并引入保守球面边界规则与自适应滤波策略,有效解决了现有 3D 高斯泼溅方法在全景相机模型中存在的畸变与几何不一致问题,在标准基准及新发布的 OmniRob 真实数据集上均实现了显著优于现有方法的几何一致性与重建质量。

Zhe Yang, Guoqiang Zhao, Sheng Wu, Kai Luo, Kailun Yang2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

本文提出了“交互式世界模拟器”(Interactive World Simulator)框架,利用一致性模型从中等规模数据集构建快速且物理一致的交互世界模型,不仅支持长达 10 分钟以上的稳定仿真,还证明了在此生成的数据训练出的机器人策略在真实世界中能达到与真实数据训练相当的性能,并实现了仿真与实机表现的高度相关性。

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

本文提出了 DualFlexKAN(DFKAN),一种通过双阶段机制独立控制输入变换与输出激活的灵活架构,它支持多种基函数族与正则化策略,在显著降低参数量(比标准 KAN 少一至两个数量级)的同时,实现了比 MLP 和传统 KAN 更优的精度、收敛速度及梯度保真度,特别适用于数据高效学习与科学应用中的可解释函数发现。

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

本文提出了检索增强高斯头像(RAF),通过在训练期间引入从大规模无标签表情库中检索到的近邻表情来增强数据,从而在不依赖配对跨身份数据或架构修改的情况下,显著提升了无模板可驱动头像在未见表情驱动下的泛化能力与鲁棒性。

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

FALCON: Future-Aware Learning with Contextual Object-Centric Pretraining for UAV Action Recognition

本文提出了 FALCON,一种针对无人机视频动作识别的统一自监督预训练方法,通过结合物体感知掩码自编码与物体中心的双视野未来重建,有效解决了航拍画面中背景杂乱导致的空间不平衡问题,显著提升了识别精度并实现了比传统监督方法快 2 至 5 倍的推理速度。

Ruiqi Xian, Xiyang Wu, Tianrui Guan, Xijun Wang, Boqing Gong, Dinesh Manocha2026-03-09🤖 cs.AI