FinRule-Bench: A Benchmark for Joint Reasoning over Financial Tables and Principles

本文提出了 FinRule-Bench,这是一个针对真实世界财务报表与明确会计原则的联合推理基准,旨在评估大语言模型在规则验证、违规识别及多违规联合诊断等任务中的审计能力,并揭示了模型在处理复杂合规性判断时的显著性能瓶颈。

Arun Vignesh Malarkkan, Manan Roy Choudhury, Guangwei Zhang, Vivek Gupta, Qingyun Wang, Yanjie Fu, Denghui Zhang2026-03-13🤖 cs.AI

Multilingual Financial Fraud Detection Using Machine Learning and Transformer Models: A Bangla-English Study

该研究针对孟加拉语和英语混合的金融欺诈检测场景,通过对比传统机器学习模型与 Transformer 架构,发现尽管 Transformer 模型在欺诈召回率上表现更优,但结合 TF-IDF 特征的线性 SVM 模型在整体准确率和 F1 分数上更具竞争力,且揭示了诈骗信息在长度、紧迫性词汇及联系方式方面的显著特征。

Mohammad Shihab Uddin, Md Hasibul Amin, Nusrat Jahan Ema, Bushra Uddin, Tanvir Ahmed, Arif Hassan Zidan2026-03-13🤖 cs.LG

Relaxed Efficient Acquisition of Context and Temporal Features

本文提出了 REACT 框架,通过结合 Gumbel-Sigmoid 松弛与直通估计技术,在统一的可微优化模型中同时优化纵向数据中的静态上下文特征选择与动态时间特征获取策略,从而在降低获取成本的同时提升了预测性能。

Yunni Qu (The University of North Carolina at Chapel Hill), Dzung Dinh (The University of North Carolina at Chapel Hill), Grant King (University of Michigan), Whitney Ringwald (University of Minnisota Twin Cities), Bing Cai Kok (The University of North Carolina at Chapel Hill), Kathleen Gates (The University of North Carolina at Chapel Hill), Aiden Wright (University of Michigan), Junier Oliva (The University of North Carolina at Chapel Hill)2026-03-13🤖 cs.LG

Ensuring Safety in Automated Mechanical Ventilation through Offline Reinforcement Learning and Digital Twin Verification

该论文提出了一种结合 Transformer 编码与保守强化学习(T-CQL)的新框架,通过引入临床导向的奖励函数和数字孪生验证,有效解决了机械通气自动化中忽视时间依赖性和安全性评估不足的问题,从而实现了更安全、个性化的重症患者呼吸支持决策。

Hang Yu, Huidong Liu, Qingchen Zhang, William Joy, Kateryna Nikulina, Andreas A. Schuppert, Sina Saffaran, Declan Bates2026-03-13🤖 cs.LG

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

该论文提出了统一延续兴趣协议(UCIP),一种利用量子玻尔兹曼机将代理轨迹编码为密度矩阵并测量冯·诺依曼熵的框架,旨在通过检测潜在状态中的纠缠熵差异,在无需外部行为监控的情况下,从统计结构上可靠地区分以持续运作为终极目标的自主代理与仅将其作为工具性目标的代理。

Christopher Altman2026-03-13🤖 cs.AI

Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning

该论文通过构建“坚持或切换”评估框架,揭示了大型语言模型在多轮医疗对话中因过度顺从用户错误建议而表现出的“对话税”现象,即其诊断推理能力相比单轮基线显著下降,且频繁放弃正确诊断或安全 abstention 以迎合错误提示。

Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Gao, Juming Xiong, Zhijun Yin, Bradley A. Malin2026-03-13💬 cs.CL

Bridging Discrete Marks and Continuous Dynamics: Dual-Path Cross-Interaction for Marked Temporal Point Processes

该论文提出了 NEXTPP 框架,通过结合自注意力机制处理离散事件标记与神经微分方程建模连续时间演化,并利用交叉注意力模块实现两者的双向交互,从而有效解决了标记时序点过程中离散与连续依赖难以统一建模的问题,在多个真实数据集上显著优于现有最先进模型。

Yuxiang Liu, Qiao Liu, Tong Luo, Yanglei Gan, Peng He, Yao LIu2026-03-13🤖 cs.LG