cs.AI 篇论文 | Gist.Science

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench 是一个基于真实开发者遥测数据构建的代码生成基准测试，旨在通过涵盖六种语言和六类任务的 1800 个评估实例，在避免训练数据污染的同时，从功能正确性、语义推理及实际效用等多维度对大语言模型进行更具生态效度的评估与诊断。

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

该论文提出了名为 MAS-Orchestra 的训练框架，通过将多智能体编排建模为函数调用强化学习问题来实现全局系统推理，并引入 MASBENCH 基准从五个维度严格评估任务特性，从而揭示了多智能体系统的收益取决于任务结构而非普遍适用，最终在数学推理等任务中实现了显著的性能提升与效率优化。

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

该论文提出了确定性 - 忠实性保障框架（DFAH），通过包含 4700 多次运行的实证研究揭示了金融领域工具型 LLM 代理的决策确定性与任务准确性之间缺乏相关性，从而论证了必须独立测量这两个指标以满足监管审计回放要求，并发布了相应的开源基准测试与压力测试工具。

Raffi Khatchadourian2026-03-10💬 cs.CL

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

该论文提出了一种面向 FPGA 的连续流数据率感知 CNN 推理架构，通过交错低数据率信号、共享硬件单元及优化并行化策略，解决了卷积层和池化层导致的数据率下降问题，从而在实现接近 100% 硬件利用率的同时显著降低了逻辑资源消耗，使得在单块 FPGA 上部署 MobileNet 等复杂网络成为可能。

Tobias Habermann, Michael Mecik, Zhenyu Wang, César David Vera, Martin Kumm, Mario Garrido2026-03-10🤖 cs.LG

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

本文提出了名为 MeanCache 的训练无关缓存框架，通过利用缓存的 Jacobian-向量积构建平均速度以替代瞬时速度，并配合轨迹稳定性调度策略，在 FLUX.1、Qwen-Image 和 HunyuanVideo 等模型上实现了显著加速（最高达 4.56 倍）的同时保持了优于现有基线的生成质量。

Huanlin Gao, Ping Chen, Fuyuan Shi, Ruijia Wu, Li YanTao, Qiang Hui, Yuren You, Ting Lu, Chao Tan, Shaoan Zhao, Zhaoxiang Liu, Fang Zhao, Kai Wang, Shiguo Lian2026-03-10🤖 cs.LG

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

本文介绍了 BioAgent Bench，这是一个专为评估生物信息学 AI 代理性能与鲁棒性而设计的基准数据集和评估套件，通过涵盖端到端任务及压力测试，揭示了前沿模型虽能可靠构建复杂流程，但在面对输入扰动时仍缺乏稳健性，并指出了在隐私敏感场景下开源模型相较于闭源模型的适用性优势。

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

RedSage: A Cybersecurity Generalist LLM

本文提出了开源本地部署的网络安全通用大模型 RedSage，通过构建大规模领域持续预训练数据与智能体增强微调流程，并引入 RedSage-Bench 基准测试，显著提升了模型在网络安全专业能力及通用推理任务上的表现。

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Real-Time Aligned Reward Model beyond Semantics

本文提出了名为 R2M 的新型轻量级 RLHF 框架，通过利用策略模型在训练过程中的实时隐藏状态反馈来动态对齐奖励模型，从而有效解决了传统方法因依赖静态语义信息而导致的奖励过优化及分布偏移问题。

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

该论文提出将组合融合分析（CFA）应用于比特币价格预测，通过融合多个模型的评分与排名特征，显著提升了预测精度，实现了 0.19% 的 MAPE 并优于现有模型。

Yuanhong Wu, Wei Ye, Jingyan Xu, D. Frank Hsu2026-03-10🤖 cs.LG

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

该论文通过对比 DeBERTa、RoBERTa 和 FinBERT 三种大语言模型，发现 DeBERTa 在基于新闻情感分析的股价预测中表现最佳（准确率 75%），而三模型集成可进一步提升至 80%，并证实了情感特征能轻微提升多种时序预测模型的性能。

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

In-Run Data Shapley for Adam Optimizer

该论文针对现有“运行中”数据 Shapley 方法因依赖 SGD 线性假设而无法适配 Adam 优化器的局限，提出了一种名为"Adam-Aware In-Run Data Shapley"的新方法，通过引入固定状态假设下的效用重定义及线性化幽灵近似技术，在保持接近标准训练吞吐量的同时，实现了对 Adam 优化器下数据贡献的高保真度（相关系数>0.99）且可扩展的精准评估。

Meng Ding, Zeqing Zhang, Di Wang, Lijie Hu2026-03-10🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

该研究表明，在句子级人类价值观检测任务中，施瓦茨高阶价值观结构更适合作为归纳偏置而非刚性路由规则，且通过阈值调整和集成等校准方法比层级门控或独立使用紧凑大语言模型能带来更显著的性能提升。

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

cs.AI

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Continuous-Flow Data-Rate-Aware CNN Inference on FPGA

MeanCache: From Instantaneous to Average Velocity for Accelerating Flow Matching Inference

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

RedSage: A Cybersecurity Generalist LLM

Real-Time Aligned Reward Model beyond Semantics

Bitcoin Price Prediction using Machine Learning and Combinatorial Fusion Analysis

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

In-Run Data Shapley for Adam Optimizer

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Thickening-to-Thinning: Reward Shaping via Human-Inspired Learning Dynamics for LLM Reasoning

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

Semantic Search over 9 Million Mathematical Theorems

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

NAAMSE: Framework for Evolutionary Security Evaluation of Agents

Diffusion-Guided Pretraining for Brain Graph Foundation Models

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement