DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

本文提出了 DrivingGen,这是首个针对自动驾驶生成式世界模型的综合基准,通过构建涵盖多样化场景的数据集和一套包含视觉真实感、轨迹合理性、时序一致性及可控性的新评估指标,解决了现有评估方法的局限性并揭示了当前模型的优劣权衡。

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

本文提出了名为 R^4 的自改进智能体框架,通过路由、检索、反思与修复四个协同智能体,在不进行梯度微调的情况下显著提升了大型视觉语言模型在医学影像(如胸部 X 光)报告生成与弱监督检测任务中的准确性、安全性及空间定位能力。

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

本文通过审计和数字民族志研究发现,广泛用于训练视觉生成模型的 LAION 美学预测器(LAP)存在显著的性别、性取向及文化偏见,其“算法凝视”强化了西方艺术史中的帝国与男性凝视,因此呼吁开发者摒弃单一的美学标准,转向更具包容性的多元评估体系。

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

该论文针对计算机使用代理(CUAs)面临的安全挑战,提出了一种名为“单次规划”的架构,通过在接触不可信环境前由可信规划器生成完整执行图,在有效防御提示注入和分支操控攻击的同时,显著提升了模型在安全与实用性之间的平衡。

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

本文提出了名为 BoxMind 的闭环 AI 专家系统,该系统通过解析拳击比赛视频构建层级化技战术指标并融合图预测模型生成战略建议,在 2024 年巴黎奥运会中成功验证了其卓越性能,直接助力中国国家队夺得三金两银的历史性成就。

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

本文提出了专为移动设备设计的 S2DiT(流式三明治扩散 Transformer),通过混合高效注意力机制、预算感知的动态规划搜索以及 2 合 1 蒸馏框架,在 iPhone 上实现了超过 10 FPS 的实时流式视频生成,同时达到了与顶尖服务器模型相当的高质量。

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

本文针对视觉 - 语言 - 动作(VLA)模型中因模态失衡导致的“虚假完成”问题,提出了首个评估基准套件,并设计了通过引入任务阶段感知视觉线索来动态平衡视觉与本体感觉的 ReViP 框架,显著提升了模型在扰动下的鲁棒性与任务成功率。

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

本文提出了 ScenePilot-Bench,这是一个基于 3847 小时多粒度标注驾驶视频构建的大规模基准,旨在通过涵盖场景理解、空间感知、运动规划及安全评估的四维体系,全面评估视觉语言模型在自动驾驶场景中的能力与局限。

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Dynamic framework for edge-connectivity maintenance of simple graphs

本文提出了一种动态框架,用于在固定常数 kk 下维护无向简单图的 kk-边连通性,该框架结合 Nagamochi-Ibaraki 稀疏证书与 Link-Cut Trees 实现 O(klogn)O(k \log n) 摊销时间的插入处理,并通过在稀疏化图上进行最大流计算,在 O(k3/2n3/2)O(k^{3/2} n^{3/2}) 时间内处理导致连通性下降的删除操作,同时始终保持图具有 O(kn)O(kn) 条边。

Blazej Wrobel2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

本文介绍了 BioAgent Bench,这是一个专为评估生物信息学 AI 代理性能与鲁棒性而设计的基准数据集和评估套件,通过涵盖端到端任务及压力测试,揭示了前沿模型虽能可靠构建复杂流程,但在面对输入扰动时仍缺乏稳健性,并指出了在隐私敏感场景下开源模型相较于闭源模型的适用性优势。

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

该论文通过对比 DeBERTa、RoBERTa 和 FinBERT 三种大语言模型,发现 DeBERTa 在基于新闻情感分析的股价预测中表现最佳(准确率 75%),而三模型集成可进一步提升至 80%,并证实了情感特征能轻微提升多种时序预测模型的性能。

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

本文通过两项针对中国退休女性舞者的共创工作坊,探索了结合交互舞蹈与生成式人工智能的适老化设计策略,证实了低门槛技术介入能有效降低创作障碍,助力她们从舞台表演的被动接受者转变为 empowered 的共同创作者。

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs

Cognitive-Flexible Control via Latent Model Reorganization with Predictive Safety Guarantees

本文提出了一种名为 CF-DeepSSSM 的认知灵活控制框架,该框架通过在受控的认知灵活性指数约束下在线重组潜在表征,并将其嵌入贝叶斯模型预测控制中,从而在系统动力学和观测条件发生突变时,为学习增强的控制系统提供后验漂移有界、递归可行及闭环稳定的安全保证。

Thanana Nuchkrua, Sudchai Boonto2026-03-10💻 cs