cs.AI 篇论文 | Gist.Science

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

SaiVLA-0 提出了一种受神经科学启发的“大脑 - 脑桥 - 小脑”三分架构，通过冻结的高层多模态先验、实时意图整合适配器及并行快速控制解码器，实现了计算感知、模块化且高效的视觉 - 语言 - 动作系统，并在 LIBERO 基准测试中显著提升了训练效率与任务成功率。

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

本文提出了 FoleyFlow，一种通过掩码建模训练实现音视频语义与节奏对齐，并利用动态条件流框架基于视频特征生成协调音频的新方法，其在基准测试中显著超越了现有成果。

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

本文提出了无需重新训练的推理时方法 DARC，通过将响应选择建模为分布鲁棒且风险敏感的决策过程，利用 KL 鲁棒满意度目标在存在异质偏好分歧的情况下有效降低尾部风险并维持平均质量。

Mingxi Zou, Jiaxiang Chen, Junfan Li, Langzhang Liang, Qifan Wang, Xu Yinghui, Zenglin Xu2026-03-10🤖 cs.LG

Gradually Excavating External Knowledge for Implicit Complex Question Answering

该论文提出了一种渐进式外部知识挖掘框架，使大语言模型能够通过迭代选择查询外部知识或执行逻辑推理等动作来动态解决开放域隐式复杂问答问题，并在 StrategyQA 数据集上以极少的参数量实现了 78.17% 的准确率，刷新了约 100 亿参数规模模型的最优性能。

Chang Liu, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Edmund Y. Lam, Ngai Wong2026-03-10💬 cs.CL

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

本文提出了一种基于混合 1D-CNN-GRU 模型并结合多种可解释性 AI 技术的智能故障检测与诊断方法，旨在解决汽车软件系统验证中黑盒模型缺乏可解释性的问题，从而提升故障根因分析能力并增强实时安全关键应用中的模型置信度。

Mohammad Abboush, Ehab Ghannoum, Andreas Rausch2026-03-10💻 cs

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

本文介绍了“条件洞察代理”（Condition Insight Agent），这是一个已部署的决策支持框架，它通过整合异构数据（如文本工单、传感器数据和结构化故障知识）并采用确定性证据构建与规则验证机制，实现了在工业维护中基于证据的可解释推理与受控决策。

Fearghal O'Donncha, Nianjun Zhou, Natalia Martinez, James T Rayfield, Fenno F. Heath III, Abigail Langbridge, Roman Vaculin2026-03-10💻 cs

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

该论文针对语音模型量化中因激活值范围大而导致的信息丢失问题，提出了一种基于进化策略的校准方法（ESC），实现了在多个语音任务中全 INT8 无损及全 INT4 近无损的量化性能。

Lucas Rakotoarivony2026-03-10💻 cs

Is continuous CoT better suited for multi-lingual reasoning?

该论文研究表明，在连续潜在空间中进行推理（Continuous Chain-of-Thought）相比传统的显式思维链，在低资源语言的零样本场景下具有更强的鲁棒性和语言不变性，同时能将推理过程压缩 29 至 50 倍，为跨语言推理提供了可扩展的高效解决方案。

Ali Hamza Bashir, Behzad Shomali, Markus Frey, Mehdi Ali, Rafet Sifa, David Berghaus2026-03-10🤖 cs.LG

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

本文揭示了全双工端到端语音模型（如 SALM-Duplex 和 Moshi）的隐藏状态存在严重的说话人隐私泄露问题，并提出基于 Stream-Voice-Anon 的两种流式匿名化方案，其中特征域替换方案（Anon-W2F）将等错误率提升了 3.5 倍以上，而波形级方案（Anon-W2W）则在保持亚秒级延迟的同时保留了 78-93% 的语义相似度。

Nikita Kuzmin, Tao Zhong, Jiajun Deng, Yingke Zhu, Tristan Tsoi, Tianxiang Cao, Simon Lui, Kong Aik Lee, Eng Siong Chng2026-03-10💻 cs

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

本文介绍了 TildeOpen LLM，这是一个通过结合数据过采样与课程学习策略，在有限计算资源下实现了 34 种欧洲语言（特别是波罗的海、芬兰 - 乌戈尔及斯拉夫语族）公平且高质量表示的 300 亿参数开源基础模型。

Toms Bergmanis, Martins Kronis, Ingus J\=anis Pretkalninš, D\=avis Nicmanis, Jelizaveta Jelinska, Roberts Rozis, Rinalds V\=iksna, M\=arcis Pinnis2026-03-10💬 cs.CL

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

该论文提出了多模态温度与间隔调度（MM-TS）方法，通过根据长尾数据分布动态调整对比学习中的温度参数，并将温度调度与最大间隔框架相结合，在多个图像 - 语言和视频 - 语言数据集上实现了新的最先进性能。

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

本文指出当前表格基础模型（如 TabPFN）的回归基准过度依赖均方误差等点估计指标，忽略了概率预测的评估，因此主张引入连续 ranked 概率分数（CRPS）等严格评分规则来评估分布回归，并强调需通过微调或提示技术来适配不同的评分规则以优化模型的归纳偏置。

Jonas Landsgesell, Pascal Knoll2026-03-10🤖 cs.LG

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

该研究针对异构热成像与可见光传感器在无人机检测中的融合难题，提出了注册感知引导图像融合（RGIF）与可靠性门控模态注意力融合（RGMAF）两种策略，通过在 MMFW-UAV 数据集上的实验验证，显著提升了多模态环境下的检测精度与召回率。

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

cs.AI

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Gradually Excavating External Knowledge for Implicit Complex Question Answering

An explainable hybrid deep learning-enabled intelligent fault detection and diagnosis approach for automotive software systems validation

Evidence-Driven Reasoning for Industrial Maintenance Using Heterogeneous Data

Evolution Strategy-Based Calibration for Low-Bit Quantization of Speech Models

Is continuous CoT better suited for multi-lingual reasoning?

Privacy-Preserving End-to-End Full-Duplex Speech Dialogue Models

TildeOpen LLM: Leveraging Curriculum Learning to Achieve Equitable Language Representation

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

SplitAgent: A Privacy-Preserving Distributed Architecture for Enterprise-Cloud Agent Collaboration

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

The Struggle Between Continuation and Refusal: A Mechanistic Analysis of the Continuation-Triggered Jailbreak in LLMs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Fibration Policy Optimization

FinToolBench: Evaluating LLM Agents for Real-World Financial Tool Use