SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

本文介绍了由临床医生共同设计的 SpineMed 生态系统,其包含首个面向椎体级推理的大规模指令数据集 SpineMed-450k 及临床评估基准 SpineBench,旨在解决脊柱疾病诊断中多模态影像与特定椎体级别推理的缺失问题,并显著提升了大模型在脊柱病理评估与手术规划中的临床实用性。

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments?

本文提出了首个针对动态移动设备环境中环境注入攻击的基准测试 GhostEI-Bench,通过在实际 Android 模拟器中注入对抗性 UI 元素并引入细粒度评估协议,揭示了当前视觉语言模型代理在感知和推理被篡改界面时存在严重脆弱性,从而为提升具身智能体的安全性提供了量化与缓解框架。

Chiyu Chen, Xinhao Song, Yunkai Chai, Yang Yao, Haodong Zhao, Lijun Li, Jie Li, Yan Teng, Gongshen Liu, Yingchun Wang2026-03-06🔒 cs.CR

FMint-SDE: A Multimodal Foundation Model for Accelerating Numerical Simulation of SDEs via Error Correction

本文提出了名为 FMint-SDE 的多模态基础模型,该模型基于解码器 Transformer 架构,通过利用数值和文本模态学习通用误差校正方案,仅需训练一次即可实现对随机微分方程(SDE)的高效、高精度模拟,从而在分子动力学、金融等多个领域超越了传统求解器在精度与效率上的权衡。

Jiaxin Yuan, Haizhao Yang, Maria Cameron2026-03-06🔢 math

CytoNet: A Foundation Model for the Human Cerebral Cortex at Cellular Resolution

本文提出了 CytoNet,这是一种基于 4000 多张组织切片中 10 个死后人脑的 100 万个无标签图像块训练的基础模型,能够通过自监督学习将复杂的细胞模式编码为具有解剖学意义的特征表示,从而实现对人脑皮层微结构的可扩展分析,并建立细胞架构与宏观功能组织之间的联系。

Christian Schiffer, Zeynep Boztoprak, Jan-Oliver Kropp + 5 more2026-03-06💻 cs