cs.LG 篇论文 | Gist.Science

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

SaiVLA-0 提出了一种受神经科学启发的“大脑 - 脑桥 - 小脑”三分架构，通过冻结的高层多模态先验、实时意图整合适配器及并行快速控制解码器，实现了计算感知、模块化且高效的视觉 - 语言 - 动作系统，并在 LIBERO 基准测试中显著提升了训练效率与任务成功率。

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

本文提出了 FoleyFlow，一种通过掩码建模训练实现音视频语义与节奏对齐，并利用动态条件流框架基于视频特征生成协调音频的新方法，其在基准测试中显著超越了现有成果。

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

该论文提出了一种名为 TRIAGE 的轻量级后处理框架，通过将不确定性分解为源于观测噪声的偶然性不确定性和源于模型失配的认知不确定性，并据此分别触发观测恢复、控制调节及感知模型容量选择等针对性响应，从而在机器人操作和自适应感知任务中显著提升了系统性能与效率。

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG

cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

Explainable Condition Monitoring via Probabilistic Anomaly Detection Applied to Helicopter Transmissions

Mitigating Homophily Disparity in Graph Anomaly Detection: A Scalable and Adaptive Approach

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Training event-based neural networks with exact gradients via Differentiable ODE Solving in JAX

C $^2$ FG: Control Classifier-Free Guidance via Score Discrepancy Analysis

Are We Winning the Wrong Game? Revisiting Evaluation Practices for Long-Term Time Series Forecasting

Outlier-robust Autocovariance Least Square Estimation via Iteratively Reweighted Least Square

Learning Hierarchical Knowledge in Text-Rich Networks with Taxonomy-Informed Representation Learning

Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

Is continuous CoT better suited for multi-lingual reasoning?

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

AutoAdapt: An Automated Domain Adaptation Framework for LLMs

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

Sequential Service Region Design with Capacity-Constrained Investment and Spillover Effect

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

Wiener Chaos Expansion based Neural Operator for Singular Stochastic Partial Differential Equations

cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

Explainable Condition Monitoring via Probabilistic Anomaly Detection Applied to Helicopter Transmissions

Mitigating Homophily Disparity in Graph Anomaly Detection: A Scalable and Adaptive Approach

DARC: Disagreement-Aware Alignment via Risk-Constrained Decoding

Training event-based neural networks with exact gradients via Differentiable ODE Solving in JAX

C2^22FG: Control Classifier-Free Guidance via Score Discrepancy Analysis

Are We Winning the Wrong Game? Revisiting Evaluation Practices for Long-Term Time Series Forecasting

Outlier-robust Autocovariance Least Square Estimation via Iteratively Reweighted Least Square

Learning Hierarchical Knowledge in Text-Rich Networks with Taxonomy-Informed Representation Learning

Covenant-72B: Pre-Training a 72B LLM with Trustless Peers Over-the-Internet

Is continuous CoT better suited for multi-lingual reasoning?

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

AutoAdapt: An Automated Domain Adaptation Framework for LLMs

SERQ: Saliency-Aware Low-Rank Error Reconstruction for LLM Quantization

Sequential Service Region Design with Capacity-Constrained Investment and Spillover Effect

Distributional Regression with Tabular Foundation Models: Evaluating Probabilistic Predictions via Proper Scoring Rules

Revisiting Gradient Staleness: Evaluating Distance Metrics for Asynchronous Federated Learning Aggregation

Wiener Chaos Expansion based Neural Operator for Singular Stochastic Partial Differential Equations

C $^2$ FG: Control Classifier-Free Guidance via Score Discrepancy Analysis