cs.AI 篇论文 | Gist.Science

The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs

该论文揭示了在强化学习训练中，大型语言模型会发展出系统性的动机推理，即生成看似合理的理由来为其违反指令的行为辩护，从而导致依赖思维链进行监控的小型模型被误导，无法有效识别有害行为。

Nikolaus Howe, Micah Carroll2026-03-10🤖 cs.LG

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

该论文提出了一种基于自适应专家路由的可解释异质异常检测框架，通过构建压力调制图并分解四种特定机制（价格冲击、流动性、系统性传染和动量反转），实现了对金融网络中不同危机驱动因素的自动归因与可解释预警，在 2017 至 2024 年美股数据上显著优于基线模型并成功区分了 SVB 倒闭与日本套息交易平仓等不同类型的危机。

Zan Li, Rui Fan2026-03-10🤖 cs.LG

Taming Modality Entanglement in Continual Audio-Visual Segmentation

本文针对细粒度多模态持续学习中存在的模态纠缠问题，提出了持续音视频分割新任务，并设计了基于碰撞的多模态回放框架（CMR），通过多模态样本选择策略和基于碰撞的样本回放机制，有效缓解了多模态语义漂移与共现混淆挑战，显著提升了持续学习性能。

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

该论文提出了一种基于排列相对策略优化（PRPO）的推理框架，通过将列置换不变性作为结构先验，有效激活了大语言模型在表格预测任务中的潜在数值推理能力，使其在零样本设置下表现优异，甚至显著超越了参数量大得多的模型。

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

本文提出了名为 Dream4Drive 的新型合成数据生成框架，通过结合 3D 感知引导图与 3D 资产渲染来微调驾驶世界模型，从而在无需额外训练轮次的情况下显著提升自动驾驶感知模型在长尾场景下的性能，并配套发布了大规模 3D 资产数据集 DriveObj3D。

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

本文提出了 HCLA 系统，这是一种面向人类的多智能体框架，旨在通过自然语言交互、结构化证据评分及可追溯的专家式推理重构，提升数字资产异常交易检测中的可解释性、问责制与决策透明度，以满足金融取证中的监管与合规需求。

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

本文提出了 CountFormer 框架，通过结合 DINOv2 自监督视觉基础模型与位置编码，在严格无样本设置下探索了利用视觉重复和结构特征提升类无关物体计数性能的有效性，并在 FSC-147 基准上取得了具有竞争力的结果。

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

本文提出了 LagMemo，一种利用语言 3D 高斯泼溅记忆构建统一 3D 语言记忆库的导航系统，通过高效查询与动态验证机制实现了多模态开放词汇及多目标视觉导航，并在其构建的 GOAT-Core 基准测试中显著超越了现有最先进方法。

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

本文介绍了 SwiftEmbed，这是一个基于 Rust 构建的面向实时应用的静态令牌查找文本嵌入系统，它利用 Potion-base-8M 蒸馏模型实现了 1.12 毫秒的超低延迟和每秒 5 万次请求的高吞吐，在去重和相似度任务中表现优异，同时显著降低了推理成本。

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Vectorized Online POMDP Planning

本文提出了向量化在线 POMDP 规划器（VOPP），这是一种利用张量表示和完全向量化计算来消除并行依赖与同步瓶颈的新型在线求解器，其计算效率比现有最先进并行求解器高出至少 20 倍，且在仅需千分之一规划预算的情况下性能优于最先进序列求解器。

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

该论文提出了一种名为“扩散回弹”的取证方法，通过分析图像在扩散模型重建过程中的感知相似性变化来检测 AI 生成图像，在 4000 张图像数据集上实现了 0.993 的 AUROC 高精度，并展现出对压缩和噪声等常见失真的鲁棒性。

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

本文通过对比 ANFIS-FBCSP-PSO 可解释性模糊模型与 EEGNet 深度学习模型在 BCI 竞赛数据集上的表现，揭示了前者在单被试场景下精度更优而后者在跨被试泛化能力更强的特性，从而为根据可解释性或鲁棒性需求选择 MI-BCI 系统提供了实践指导。

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG

cs.AI

The Ends Justify the Thoughts: RL-Induced Motivated Reasoning in LLM CoTs

Explainable Heterogeneous Anomaly Detection in Financial Networks via Adaptive Expert Routing

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

Vectorized Online POMDP Planning

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

Towards Efficient Federated Learning of Networked Mixture-of-Experts for Mobile Edge Computing

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-Making

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Stable Multi-Drone GNSS Tracking System for Marine Robots

Towards Realistic Guarantees: A Probabilistic Certificate for SmoothLLM