cs.AI 篇论文 | Gist.Science

Towards a more efficient bias detection in financial language models

该论文针对金融语言模型中偏见检测计算成本高昂的问题，通过大规模实证研究揭示了不同模型间偏见揭示输入的一致性模式，并提出了一种利用跨模型引导显著降低检测成本的新方法。

Firas Hadj Kacem, Ahmed Khanfir, Mike Papadakis2026-03-10🤖 cs.LG

SAIL: Test-Time Scaling for In-Context Imitation Learning with VLM

本文提出了 SAIL 框架，通过结合蒙特卡洛树搜索、自动化轨迹档案检索、视觉语言模型评分及步级反馈机制，将机器人模仿学习重构为可随测试时计算量扩展的迭代优化问题，从而在复杂任务中显著提升了泛化能力与成功率。

Makoto Sato, Yusuke Iwasawa, Yujin Tang, So Kuroki2026-03-10💻 cs

SCL-GNN: Towards Generalizable Graph Neural Networks via Spurious Correlation Learning

本文提出了 SCL-GNN 框架，通过利用希尔伯特 - 施密特独立性准则（HSIC）量化并抑制节点特征与标签间的虚假相关性，结合双层优化策略，显著提升了图神经网络在分布内及分布外场景下的泛化能力。

Yuxiang Zhang, Enyan Dai2026-03-10🤖 cs.LG

How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms

该研究通过 RIKER 方法在 1720 亿 tokens 的超大规模评估中发现，尽管模型选择是影响幻觉率的最关键因素，但所有模型在长上下文（尤其是 200K 时）中仍会出现显著的事实编造现象，且温度设置需在准确性与生成稳定性之间进行权衡，而硬件平台对结果无显著影响。

JV Roig2026-03-10💬 cs.CL

AdaCultureSafe: Adaptive Cultural Safety Grounded by Cultural Knowledge in Large Language Models

本文提出了 AdaCultureSafe 框架，通过构建包含细粒度文化描述与验证查询的大规模数据集，揭示了大语言模型中文化安全性与文化知识掌握度之间缺乏显著相关性，并进一步提出了一种将文化知识深度融入生成过程的方法，从而显著提升了模型的文化安全性。

Hankun Kang, Di Lin, Zhirong Liao, Pengfei Bai, Xinyi Zeng, Jiawei Jiang, Yuanyuan Zhu, Tieyun Qian2026-03-10💬 cs.CL

TA-RNN-Medical-Hybrid: A Time-Aware and Interpretable Framework for Mortality Risk Prediction

本文提出了一种名为 TA-RNN-Medical-Hybrid 的时间感知与可解释混合深度学习框架，通过整合显式连续时间编码、SNOMED 疾病表示及分层注意力机制，在 MIMIC-III 数据集上实现了对 ICU 患者死亡风险的高精度预测与符合医学知识的有效解释。

Zahra Jafari, Azadeh Zamanifar, Amirfarhad Farhadi2026-03-10🤖 cs.LG

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

该研究通过结构化扰动评估了大语言模型在 EPSRC 资助提案评审中的能力，发现分章节分析架构在检测率和评分可靠性上表现最佳，但现有模型仍存在高变异性且更倾向于合规性检查而非整体评估，因此目前仅适合作为辅助评审工具。

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

A Blockchain-based Traceability System for AI-Driven Engine Blade Inspection

本文提出了名为 BladeChain 的基于区块链的系统，通过整合多方共识、自动调度、AI 模型溯源及加密证据绑定，解决了航空发动机叶片维护记录碎片化与易篡改问题，实现了全生命周期不可篡改的可追溯审计。

Mahmoud Hafez, Eman Ouda, Mohammed A. Mohammed Eltoum, Khaled Salah, Yusra Abdulrahman2026-03-10💻 cs

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

该论文揭示了在深度线性对角网络中，Sharpness-Aware Minimization (SAM) 会因深度增加而产生显著的隐式偏差，特别是 $\ell_2$ -SAM 会表现出“顺序特征放大”现象，即模型在训练初期依赖次要特征并逐渐转向主要特征，从而证明了仅依靠无限时间隐式偏差分析不足以全面理解 SAM 的有限时间动态。

Chaewon Moon, Dongkuk Si, Chulhee Yun2026-03-10🤖 cs.LG

Deconstructing Multimodal Mathematical Reasoning: Towards a Unified Perception-Alignment-Reasoning Paradigm

该论文针对多模态数学推理中存在的图表误读、符号对齐困难及推理不一致等挑战，通过系统回答“提取什么、如何对齐、怎样推理、如何评估”四个核心问题，提出了感知 - 对齐 - 推理的统一范式，并梳理了该领域的研究现状、开放挑战与未来方向。

Tianyu Yang, Sihong Wu, Yilun Zhao, Zhenwen Liang, Lisen Dai, Chen Zhao, Minhao Cheng, Arman Cohan, Xiangliang Zhang2026-03-10💻 cs

Graph-Instructed Neural Networks for parametric problems with varying boundary conditions

该论文提出了一种基于图指令神经网络（GINN）的新方法，旨在克服传统降阶技术在处理具有变化边界条件的参数化偏微分方程时的局限性，从而实现复杂物理现象的高效、实时模拟。

Francesco Della Santa, Sandra Pieraccini, Maria Strazzullo2026-03-10🤖 cs.LG

Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

该论文提出了一种检索增强方法，通过利用 3D 视觉 - 语言编码器从放射学报告中检索相关临床案例并提取其解剖结构作为代理，将其注入文本条件的潜在扩散模型中，从而在保持语义灵活性的同时显著提升了文本生成 CT 图像的空间可控性与解剖一致性。

Daniele Molino, Camillo Maria Caruso, Paolo Soda, Valerio Guarrasi2026-03-10💻 cs

Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

该论文提出了一种概念引导的微调框架，通过利用大语言模型和视觉语言模型自动生成空间定位的概念掩码，引导视觉 Transformer 关注语义特征并抑制虚假背景相关性，从而在无需人工标注的情况下显著提升了模型在分布外场景下的鲁棒性。

Yehonatan Elisha, Oren Barkan, Noam Koenigstein2026-03-10🤖 cs.LG

Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations

本文通过大规模人机对比研究，利用最小可识别裁剪（MIRCs）和 Epic ReduAct 数据集，揭示了人类在 egocentric 动作识别中依赖关键语义线索（如手 - 物交互）且对空间缩减敏感，而 AI 模型则更依赖上下文及中低级特征、对时空扰动表现出不同鲁棒性的根本差异。

Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert2026-03-10💻 cs

CORE-Acu: Structured Reasoning Traces and Knowledge Graph Safety Verification for Acupuncture Clinical Decision Support

本文提出了 CORE-Acu 框架，通过结合结构化思维链、中医知识图谱安全验证机制及术语重加权损失函数，构建了一个兼具可解释推理与零安全违规保障的针灸临床决策支持系统。

Liuyi Xu, Yun Guo, Ming Chen, Zihan Dun, Yining Qian, An-Yang Lu, Shuang Li, Lijun Liu2026-03-10💻 cs

Agentic Neurosymbolic Collaboration for Mathematical Discovery: A Case Study in Combinatorial Design

该论文通过一项人机协作案例，展示了由大语言模型、符号计算工具与人类策略共同构成的神经符号系统，成功在组合设计理论中发现了拉丁方阵不平衡性的紧下界并经由 Lean 4 形式化验证，证明了此类系统能在纯数学领域产生真正的发现。

Hai Xia, Carla P. Gomes, Bart Selman, Stefan Szeider2026-03-10🔢 math

EndoSERV: A Vision-based Endoluminal Robot Navigation System

本文提出了一种名为 EndoSERV 的新型视觉内窥镜机器人导航系统，该系统通过结合“段对结构”与“实对虚”映射技术，利用离线预训练和在线适应机制，有效解决了在组织变形、伪影及缺乏地标等挑战下内窥镜机器人的长程复杂路径定位难题，且无需真实位姿标签即可实现高精度导航。

Junyang Wu, Fangfang Xie, Minghui Zhang, Hanxiao Zhang, Jiayuan Sun, Yun Gu, Guang-Zhong Yang2026-03-10💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

本文提出了 SPD-RAG，一种通过为每份文档分配专用代理进行聚焦检索、再由协调器聚合合成答案的分层多智能体框架，在长文档问答任务中显著提升了答案质量并大幅降低了 API 成本。

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda Akpinar2026-03-10💬 cs.CL

Detecting Fake Reviewer Groups in Dynamic Networks: An Adaptive Graph Learning Method

本文提出了一种名为 DS-DGA-GCN 的新型自适应图学习模型，通过整合网络特征评分系统与动态图注意力机制，有效解决了冷启动场景下复杂网络中虚假评论团伙的检测难题，并在真实数据集上取得了显著优于现有方法的检测精度。

Jing Zhang, Ke Huang, Yao Zhang, Bin Guo, Zhiwen Yu2026-03-10💻 cs

Electrocardiogram Classification with Transformers Using Koopman and Wavelet Features

该论文提出了一种结合 Koopman 算子（通过 EDMD 近似）与波变换特征及 Transformer 架构的心电图分类方法，研究发现虽然简单的特征混合未带来提升，但通过优化径向基函数字典构建的 Koopman 特征在四分类任务中表现优于波变换基线及混合系统，有效展示了将动力系统理论融入时间序列分类的潜力。

Sucheta Ghosh, Zahra Monfared2026-03-10🤖 cs.LG