cs.AI 篇论文 | Gist.Science

Neural Dynamics-Informed Pre-trained Framework for Personalized Brain Functional Network Construction

该论文提出了一种神经动力学先验的预训练框架，通过提取异质场景下的个性化神经活动表征来指导脑区划分与相关性估计，从而克服了传统方法依赖固定图谱和线性假设的局限，显著提升了个性化脑功能网络构建的准确性与泛化能力。

Hongjie Jiang, Yifei Tang, Shuqiang Wang2026-03-10🤖 cs.LG

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

该论文提出了一种名为 UniLongGen 的训练-free 推理策略，通过动态筛选并丢弃干扰性视觉信号来主动“遗忘”历史图像，从而解决统一多模态模型在生成长序列图文内容时因视觉信息累积污染而导致的质量崩溃问题。

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

DreamSAC 提出了一种结合基于哈密顿量的对称性探索策略与自监督对比学习的框架，通过主动收集符合物理守恒律的数据并从中学习不变性，显著提升了世界模型在物理模拟中面对新物理属性时的外推泛化能力。

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang2026-03-10🤖 cs.LG

COOL-MC: Verifying and Explaining RL Policies for Multi-bridge Network Maintenance

本文提出了 COOL-MC 工具，通过概率模型检查和可解释性分析，对基于强化学习的多桥梁网络维护策略进行了形式化验证与解释，揭示了其安全违规概率及决策偏差。

Dennis Gross2026-03-10🤖 cs.LG

Learning-free L2-Accented Speech Generation using Phonological Rules

该论文提出了一种无需 accented 训练数据的 L2 口音语音生成框架，通过结合多语言 TTS 模型与音系规则，在音素级别实现了对西班牙语和印度口音英语的显式转换，在保持语音质量的同时有效实现了口音迁移。

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

该论文针对零样本语音克隆的隐私风险，正式提出了“语音生成 speaker poisoning"（SGSP）任务，旨在通过修改模型参数在保留通用语音合成能力的同时有效阻止特定说话人身份的生成，并评估了该方法在不同遗忘规模下的隐私保护与效用权衡。

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth Narayanan2026-03-10💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

该论文发布了首个尼泊尔语（Newari）5.39 小时人工转写天城文语音语料库"Nw\=ach\=a Mun\=a"，并证明在超低资源自动语音识别任务中，利用地理和语言邻近的尼泊尔语进行迁移学习，能以更少的参数量达到与大规模多语言模型相当的性能。

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

本文提出了一种名为 GRD-Net 的新型异常检测架构，该架构结合基于残差自编码器的生成对抗网络与区域兴趣（ROI）注意力模块，通过利用正常样本及合成缺陷数据进行训练，实现了无需复杂后处理算法即可精准定位工业表面缺陷（如药瓶铝盖）的异常检测。

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

该论文在 OpenOOD 标准协议下，系统比较了交叉熵、原型、三元组及平均精度四种训练目标在图像分类中的分布外检测性能，发现交叉熵损失在保持分布内精度的同时，能提供最为稳健的近域与远域分布外检测效果。

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

该论文提出了一种基于生成对抗网络与残差自编码器的半监督异常检测框架，通过仅使用标称样本训练，成功在制药行业高速吹灌封（BFS）生产线上实现了满足 500 毫秒时序约束的高精度在线缺陷检测与定位。

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

Shorter Thoughts, Same Answers: Difficulty-Scaled Segment-Wise RL for CoT Compression

该论文提出了难度缩放的分段式 GRPO（DSS-GRPO）方法，通过将奖励信号分解为思维与回答两个独立部分并施加难度感知调整，在有效压缩思维链长度的同时避免了模型回答质量的下降。

Ye Tian, Aijun Liu2026-03-10🤖 cs.LG

SMAT: Staged Multi-Agent Training for Co-Adaptive Exoskeleton Control

该论文提出了一种名为 SMAT 的四阶段多智能体训练课程，通过模拟人类自然适应过程来训练髋部外骨骼控制器，使其在无需针对特定用户重新训练的情况下，即可在物理实验中实现一致的辅助效果并显著降低肌肉激活度。

Yifei Yuan, Ghaith Androwis, Xianlian Zhou2026-03-10🤖 cs.LG

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

该论文提出了一种基于 NVIDIA Omniverse 构建的阿尔及尔国际机场高保真数字孪生体的合成数据生成管道，用于解决行李推车检测中的隐私与数据多样性难题，实验表明结合少量真实标注数据的混合训练策略在显著降低标注成本的同时，其检测精度（mAP@50 达 0.94）可媲美甚至超越全量真实数据基线。

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

本文提出了名为 AtomicVLA 的统一规划与执行框架，通过技能引导的混合专家模型（SG-MoE）和灵活路由编码器构建可扩展的原子技能库，有效解决了现有视觉 - 语言 - 动作（VLA）模型在长程任务规划、多步问题解决及持续技能学习方面的局限性，并在仿真与真实世界实验中显著超越了现有基线模型。

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

本文提出了 Ref-DGS 框架，通过解耦表面重建与镜面反射，利用几何高斯、局部反射高斯及全局环境反射场，在不依赖显式光线追踪的情况下高效实现了包含近场强镜面反射场景的高质量重建与新视图合成。

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

AI-Driven Phase Identification from X-ray Hyperspectral Imaging of cycled Na-ion Cathode Materials

该研究开发了一种结合高斯混合变分自编码器与皮尔逊相关系数的 AI 驱动方法，成功从稀疏采样的扫描透射 X 射线显微镜数据中实现了钠离子电池正极材料（NaₓV₂(PO₄)₂F₃）在充放电过程中纳米级多相分布与演变的精准识别与映射。

Fayçal Adrar, Nicolas Folastre, Chloé Pablos, Stefan Stanescu, Sufal Swaraj, Raghvender Raghvender, François Cadiou, Laurence Croguennec, Matthieu Bugnet, Arnaud Demortière2026-03-10🔬 cond-mat.mtrl-sci

Memory for Autonomous LLM Agents:Mechanisms, Evaluation, and Emerging Frontiers

这篇论文系统综述了 2022 年至 2026 年初大语言模型智能体中的记忆机制，通过构建“写入 - 管理 - 读取”循环框架与三维分类体系，深入探讨了五种核心记忆技术、评估范式的演进、关键应用场景及工程挑战，并展望了持续巩固、因果检索等未来前沿方向。

Pengfei Du2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

该论文提出了一种利用运动矢量、残差图和帧类型等压缩域信息的 CDA-VSR 网络，通过运动矢量引导的可变形对齐、残差门控融合及帧类型感知重建模块，在 REDS4 数据集上实现了比现有最先进方法 TMP 更高的重建质量（PSNR 提升 0.13 dB）和两倍以上的推理速度，从而解决了带宽受限场景下在线视频超分辨率实时处理的难题。

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

本文提出了 TDM-R1，一种基于轨迹分布匹配（TDM）的新型强化学习范式，通过解耦奖励学习与生成器训练并引入每步奖励信号，成功解决了少步扩散模型无法利用非可微奖励（如人类偏好）进行优化的难题，在文本渲染、视觉质量及偏好对齐等任务中实现了最先进的性能。

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

该论文介绍了 VoiceSHIELD-Small，这是一种基于 Whisper-small 的轻量级实时模型，能够同步完成语音转录与恶意内容检测，在保持低延迟的同时实现了 99.16% 的高准确率，旨在解决语音交互中的新兴安全风险。

Sumit Ranjan, Sugandha Sharma, Ubaid Abbas, Puneeth N Ail2026-03-10💻 cs

← 上一页下一页 →