Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

本文提出了名为“叙事编织者(Narrative Weaver)”的新框架,通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制,并发布了首个电商广告视频分镜数据集(EAVSD),从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

该论文提出利用眼动追踪数据作为监督信号,通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程,从而显著提升了模型在医学影像推理任务中的性能与泛化能力。

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

本文提出了一种结合地球静止轨道卫星数据与分层规划方法的动态目标观测新策略,通过利用长达 35 分钟的超前信息制定长期观测蓝图并结合星载传感器进行短期优化,显著提升了云规避和风暴追踪等场景下的观测性能(最高提升 41%)。

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs

Regression Models Meet Foundation Models: A Hybrid-AI Approach to Practical Electricity Price Forecasting

本文提出了名为 FutureBoosting 的混合 AI 框架,通过将冻结的时间序列基础模型生成的预测特征融入回归模型,有效克服了单一模型在捕捉跨变量关联与历史驱动因素方面的局限,从而在电价预测任务中显著提升了预测精度与可解释性。

Yunzhong Qiu, Binzhu Li, Hao Wei, Shenglin Weng, Chen Wang, Zhongyi Pei, Mingsheng Long, Jianmin Wang2026-03-10🤖 cs.LG

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

本文提出了一种名为"Safe Transformer"的模块化方法,通过在 Transformer 层间插入包含显式安全位的离散信息瓶颈,利用对比学习实现安全决策的可解释性与可控制性,仅需轻量级微调即可在保持生成能力的同时显著降低攻击成功率。

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo2026-03-10🤖 cs.LG