cs.AI 篇论文 | Gist.Science

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

该论文提出了一个评估工具选择偏差的基准，揭示了大型语言模型在从功能等效工具中选择时存在显著偏差（主要受语义匹配、描述扰动及预训练曝光影响），并设计了一种先过滤后均匀采样的轻量级策略以有效缓解该问题。

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

本文提出了名为 MonitorVLM 的视觉 - 语言框架，通过构建包含 9000 个样本的矿业违规数据集，并创新性地引入条款筛选和行为放大模块，显著提升了矿山作业中安全违规行为检测的精度与效率，实现了从监控视频流到自动违规报告的智能化闭环。

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

本文首次系统评估了自监督学习在可穿戴 EEG 睡眠分期中的应用，提出了一种专用流程，证明其仅需 5% 至 10% 的标注数据即可实现超过 80% 的临床级准确率，显著优于监督基线及通用 EEG 基础模型。

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

本文提出了一种名为 HyWA 的新方法，利用超网络为语音活动检测（VAD）模型中的特定层生成个性化权重，从而在保持架构统一的同时，显著提升了个性化语音活动检测（PVAD）的平均精度并优化了部署效率。

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

该论文提出了一种名为“揭示 - 修订”的可解释性偏差感知生成框架，通过融合跨模态注意力、Grad-CAM++ 归因及迭代反馈机制，在多个基准测试中实现了超越现有基线的生成质量、鲁棒性及公平性。

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12🤖 cs.LG

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

本文提出了 MVCustom，一种基于扩散模型的新框架，通过特征场表示、深度感知特征渲染及一致性感知潜变量补全技术，成功解决了多视图生成中视角控制与提示词定制化难以兼顾且缺乏几何一致性的难题。

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

该论文提出了一种基于数据协方差矩阵和目标函数多项式分解的“厄米特征结构假设”（HEA）理论框架，能够仅利用原始数据统计量准确预测真实数据集上的核回归学习曲线，并发现多层感知机在特征学习阶段也遵循该假设所预测的厄米多项式学习顺序。

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

KV Cache Transform Coding for Compact Storage in LLM Inference

本文提出了 KVTC，一种基于主成分分析、自适应量化和熵编码的轻量级变换编码方法，能够在保持大语言模型推理精度和长上下文能力的同时，实现高达 20 倍（特定场景下 40 倍以上）的 KV 缓存压缩，从而显著降低显存占用并支持缓存复用。

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study

该研究以高温超导领域为例，通过构建专家 curated 的文献库与评估体系，证实了基于检索增强生成（RAG）的 LLM 系统在回答复杂科学问题时，在全面性和证据支持方面优于现有的闭源模型。

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

本文提出了 DeepEyesV2 模型，通过构建包含工具使用有益案例的数据集、采用“冷启动预训练 + 强化学习”的两阶段训练策略，并引入 RealX-Bench 基准，成功实现了能够根据任务上下文自适应调用代码执行、网页搜索等外部工具的具身多模态智能体。

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

该论文提出了一种名为"What We Don't C"的新方法，利用潜在流匹配技术通过显式移除条件引导中的信息来解耦潜在子空间，从而生成有意义的残差表示，使未被条件变量捕获的变异因子更易被利用，进而实现对生成模型潜在表示的分析、控制与再利用。

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

该论文提出了 D-GAP 方法，通过利用任务梯度在频域自适应地插值振幅以消除域偏差，并辅以像素空间融合恢复细节，从而在无需特定数据集先验知识的情况下显著提升了模型在真实世界场景中的泛化鲁棒性。

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

本文提出了 STREAM-VAE 模型，通过双路径编码器分离车辆遥测数据中的慢速漂移与快速尖峰动态，从而在多种工况下实现比现有基线方法更鲁棒的异常检测。

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

本文提出了首个涵盖 160 多种遥感基础模型的结构化数据库 RS-FMD，并基于此构建了约束感知智能体 REMSA，该智能体能够通过自然语言查询自动筛选最合适的模型，并在专家构建的基准测试中展现出超越现有基线的实用性能。

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

本文提出了一种针对医疗数据隐私风险的层次化双策略遗忘框架，通过几何约束梯度更新与概念感知令牌级干预相结合，在仅修改 0.1% 参数的情况下实现了 82.7% 的遗忘率与 88.5% 的知识保留，有效平衡了敏感信息移除与基础医疗能力保持的需求。

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

本文提出了 CostNav，这是首个结合行业标准监管与财务数据及物理仿真的经济导航基准，通过量化分析揭示现有导航方法在真实商业部署中均无法实现经济可行性，从而挑战社区开发以经济成本为核心指标的导航策略。

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

cs.AI

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Predicting kernel regression learning curves from only raw data statistics

KV Cache Transform Coding for Compact Storage in LLM Inference

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study

DeepEyesV2: Toward Agentic Multimodal Model

What We Don't C: Manifold Disentanglement for Structured Discovery

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Maximum Risk Minimization with Random Forests

cs.AI

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Predicting kernel regression learning curves from only raw data statistics

KV Cache Transform Coding for Compact Storage in LLM Inference

Expert Evaluation of LLM World Models: A High-TcT_cTc​ Superconductivity Case Study

DeepEyesV2: Toward Agentic Multimodal Model

What We Don't C: Manifold Disentanglement for Structured Discovery

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Maximum Risk Minimization with Random Forests

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study