How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

该论文提出了一种名为 UniLongGen 的训练-free 推理策略,通过动态筛选并丢弃干扰性视觉信号来主动“遗忘”历史图像,从而解决统一多模态模型在生成长序列图文内容时因视觉信息累积污染而导致的质量崩溃问题。

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

该论文发布了首个尼泊尔语(Newari)5.39 小时人工转写天城文语音语料库"Nw\=ach\=a Mun\=a",并证明在超低资源自动语音识别任务中,利用地理和语言邻近的尼泊尔语进行迁移学习,能以更少的参数量达到与大规模多语言模型相当的性能。

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

本文提出了一种名为 GRD-Net 的新型异常检测架构,该架构结合基于残差自编码器的生成对抗网络与区域兴趣(ROI)注意力模块,通过利用正常样本及合成缺陷数据进行训练,实现了无需复杂后处理算法即可精准定位工业表面缺陷(如药瓶铝盖)的异常检测。

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

该论文提出了一种基于 NVIDIA Omniverse 构建的阿尔及尔国际机场高保真数字孪生体的合成数据生成管道,用于解决行李推车检测中的隐私与数据多样性难题,实验表明结合少量真实标注数据的混合训练策略在显著降低标注成本的同时,其检测精度(mAP@50 达 0.94)可媲美甚至超越全量真实数据基线。

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

本文提出了名为 AtomicVLA 的统一规划与执行框架,通过技能引导的混合专家模型(SG-MoE)和灵活路由编码器构建可扩展的原子技能库,有效解决了现有视觉 - 语言 - 动作(VLA)模型在长程任务规划、多步问题解决及持续技能学习方面的局限性,并在仿真与真实世界实验中显著超越了现有基线模型。

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

AI-Driven Phase Identification from X-ray Hyperspectral Imaging of cycled Na-ion Cathode Materials

该研究开发了一种结合高斯混合变分自编码器与皮尔逊相关系数的 AI 驱动方法,成功从稀疏采样的扫描透射 X 射线显微镜数据中实现了钠离子电池正极材料(NaₓV₂(PO₄)₂F₃)在充放电过程中纳米级多相分布与演变的精准识别与映射。

Fayçal Adrar, Nicolas Folastre, Chloé Pablos, Stefan Stanescu, Sufal Swaraj, Raghvender Raghvender, François Cadiou, Laurence Croguennec, Matthieu Bugnet, Arnaud Demortière2026-03-10🔬 cond-mat.mtrl-sci

Compressed-Domain-Aware Online Video Super-Resolution

该论文提出了一种利用运动矢量、残差图和帧类型等压缩域信息的 CDA-VSR 网络,通过运动矢量引导的可变形对齐、残差门控融合及帧类型感知重建模块,在 REDS4 数据集上实现了比现有最先进方法 TMP 更高的重建质量(PSNR 提升 0.13 dB)和两倍以上的推理速度,从而解决了带宽受限场景下在线视频超分辨率实时处理的难题。

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs