cs 篇论文 | Gist.Science

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

本文提出了专为移动设备设计的 S2DiT（流式三明治扩散 Transformer），通过混合高效注意力机制、预算感知的动态规划搜索以及 2 合 1 蒸馏框架，在 iPhone 上实现了超过 10 FPS 的实时流式视频生成，同时达到了与顶尖服务器模型相当的高质量。

Lin Zhao, Yushu Wu, Aleksei Lebedev, Dishani Lahiri, Meng Dong, Arpit Sahni, Michael Vasilkovsky, Hao Chen, Ju Hu, Aliaksandr Siarohin, Sergey Tulyakov, Yanzhi Wang, Anil Kag, Yanyu Li2026-03-10💻 cs

Equal-Pay Contracts

本文研究了受限于支付公平性的多智能体合同设计问题，通过提供针对特定奖励函数的多项式时间近似算法与不可近似性证明，解决了无约束合同设计中的两个开放问题，并量化了公平性约束导致的效用损失（价格 of equality）。

Michal Feldman, Yoav Gal-Tzur, Tomasz Ponitka, Maya Schlesinger2026-03-10💻 cs

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

本文针对视觉 - 语言 - 动作（VLA）模型中因模态失衡导致的“虚假完成”问题，提出了首个评估基准套件，并设计了通过引入任务阶段感知视觉线索来动态平衡视觉与本体感觉的 ReViP 框架，显著提升了模型在扰动下的鲁棒性与任务成功率。

Zhuohao Li, Yinghao Li, Jian-Jian Jiang, Lang Zhou, Tianyu Zhang, Jiadong Yin, Mu Lin, Yi-Kin Wei, Wei-Shi Zheng2026-03-10💻 cs

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

本文提出了 ScenePilot-Bench，这是一个基于 3847 小时多粒度标注驾驶视频构建的大规模基准，旨在通过涵盖场景理解、空间感知、运动规划及安全评估的四维体系，全面评估视觉语言模型在自动驾驶场景中的能力与局限。

Yujin Wang, Yutong Zheng, Wenxian Fan, Tianyi Wang, Hongqing Chu, Li Zhang, Bingzhao Gao, Daxin Tian, Jianqiang Wang, Hong Chen2026-03-10💻 cs

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

本文提出了一种名为 QSTar 的新型查询引导时空频交互方法，通过引入查询上下文推理模块并充分利用音频的频域特性及问题引导线索，有效解决了现有音视频问答任务中音频与文本信息利用不足的问题，从而在多个基准测试中显著提升了性能。

Kun Li, Michael Ying Yang, Sami Sebastian Brandt2026-03-10💻 cs

Dynamic framework for edge-connectivity maintenance of simple graphs

本文提出了一种动态框架，用于在固定常数 $k$ 下维护无向简单图的 $k$ -边连通性，该框架结合 Nagamochi-Ibaraki 稀疏证书与 Link-Cut Trees 实现 $O(k \log n)$ 摊销时间的插入处理，并通过在稀疏化图上进行最大流计算，在 $O(k^{3/2} n^{3/2})$ 时间内处理导致连通性下降的删除操作，同时始终保持图具有 $O(kn)$ 条边。

Blazej Wrobel2026-03-10💻 cs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

本文介绍了 BioAgent Bench，这是一个专为评估生物信息学 AI 代理性能与鲁棒性而设计的基准数据集和评估套件，通过涵盖端到端任务及压力测试，揭示了前沿模型虽能可靠构建复杂流程，但在面对输入扰动时仍缺乏稳健性，并指出了在隐私敏感场景下开源模型相较于闭源模型的适用性优势。

Dionizije Fa, Marko Čuljak, Bruno Pandža, Mateo Čupic2026-03-10💻 cs

Real-Time Aligned Reward Model beyond Semantics

本文提出了名为 R2M 的新型轻量级 RLHF 框架，通过利用策略模型在训练过程中的实时隐藏状态反馈来动态对齐奖励模型，从而有效解决了传统方法因依赖静态语义信息而导致的奖励过优化及分布偏移问题。

Zixuan Huang, Xin Xia, Yuxi Ren, Jianbin Zheng, Xuefeng Xiao, Hongyan Xie, Li Huaqiu, Songshi Liang, Zhongxiang Dai, Fuzhen Zhuang, Jianxin Li, Yikun Ban, Deqing Wang2026-03-10💻 cs

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

该论文通过对比 DeBERTa、RoBERTa 和 FinBERT 三种大语言模型，发现 DeBERTa 在基于新闻情感分析的股价预测中表现最佳（准确率 75%），而三模型集成可进一步提升至 80%，并证实了情感特征能轻微提升多种时序预测模型的性能。

Walid Siala (SnT, University of Luxembourg, Luxembourg), Ahmed Khanfir (RIADI, ENSI, University of Manouba, Tunisia, SnT, University of Luxembourg, Luxembourg), Mike Papadakis (SnT, University of Luxembourg, Luxembourg)2026-03-10💻 cs

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

本文通过两项针对中国退休女性舞者的共创工作坊，探索了结合交互舞蹈与生成式人工智能的适老化设计策略，证实了低门槛技术介入能有效降低创作障碍，助力她们从舞台表演的被动接受者转变为 empowered 的共同创作者。

Danlin Zheng, Xiaoying Wei, Chao Liu, Quanyu Zhang, Jingling Zhang, Shihui Guo, Mingming Fan2026-03-10💻 cs

Cognitive-Flexible Control via Latent Model Reorganization with Predictive Safety Guarantees

本文提出了一种名为 CF-DeepSSSM 的认知灵活控制框架，该框架通过在受控的认知灵活性指数约束下在线重组潜在表征，并将其嵌入贝叶斯模型预测控制中，从而在系统动力学和观测条件发生突变时，为学习增强的控制系统提供后验漂移有界、递归可行及闭环稳定的安全保证。

Thanana Nuchkrua, Sudchai Boonto2026-03-10💻 cs

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

本文提出了 Green-VLA，一种专为 Green 人形机器人设计并具备跨形态泛化能力的五阶段课程学习框架，通过结合大规模数据处理、统一动作接口及强化学习对齐，显著提升了机器人在真实场景中的泛化性、鲁棒性与长程任务执行效率。

I. Apanasevich, M. Artemyev, R. Babakyan, P. Fedotova, D. Grankin, E. Kupryashin, A. Misailidi, D. Nerus, A. Nutalapati, G. Sidorov, I. Efremov, M. Gerasyov, D. Pikurov, Y. Senchenko, S. Davidenko, D. Kulikov, M. Sultankin, K. Askarbek, O. Shamanin, D. Statovoy, E. Zalyaev, I. Zorin, A. Letkin, E. Rusakov, A. Silchenko, V. Vorobyov, S. Sobolnikov, A. Postnikov2026-03-10💻 cs

cs

S2DiT: Sandwich Diffusion Transformer for Mobile Streaming Video Generation

Equal-Pay Contracts

ReViP: Mitigating False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance

ScenePilot-Bench: A Large-Scale Dataset and Benchmark for Evaluation of Vision-Language Models in Autonomous Driving

Query-Guided Spatial-Temporal-Frequency Interaction for Music Audio-Visual Question Answering

Dynamic framework for edge-connectivity maintenance of simple graphs

BioAgent Bench: An AI Agent Evaluation Suite for Bioinformatics

Real-Time Aligned Reward Model beyond Semantics

Impact of LLMs news Sentiment Analysis on Stock Price Movement Prediction

From Performers to Creators: Understanding Retired Women's Perceptions of Technology-Enhanced Dance Performance

Cognitive-Flexible Control via Latent Model Reorganization with Predictive Safety Guarantees

Green-VLA: Staged Vision-Language-Action Model for Generalist Robots

Vulnerability-Amplifying Interaction Loops: a systematic failure mode in AI chatbot mental-health interactions

AgenticLab: A Real-World Robot Agent Platform that Can See, Think, and Act

Six Times to Spare: Characterizing GPU-Accelerated 5G LDPC Decoding for Edge-RSU Communications

Extracting Recurring Vulnerabilities from Black-Box LLM-Generated Software

LMMRec: LLM-driven Motivation-aware Multimodal Recommendation

Assessing Problem-Solving in HR Contexts: A Comparison Between Game-Based and Self-Report Measures

Conditional Diffusion Guidance under Hard Constraint: A Stochastic Analysis Approach

Beyond Judgment: Exploring Large Language Models as Non-Judgmental Support for Maternal Mental Health