Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

本文提出了名为“叙事编织者(Narrative Weaver)”的新框架,通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制,并发布了首个电商广告视频分镜数据集(EAVSD),从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

该论文提出了一种名为 HARP 的深度学习框架,通过仅在可移动的扩散体模上进行训练,成功消除了多站点体内扩散 MRI 数据间的扫描仪差异,从而无需依赖复杂且难以获取的多站点人体受试者队列即可实现数据标准化。

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

该论文提出利用眼动追踪数据作为监督信号,通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程,从而显著提升了模型在医学影像推理任务中的性能与泛化能力。

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

该论文提出了科学图像质量评估(SIQA)框架,通过构建包含知识(科学有效性与完整性)和感知(认知清晰度与学科规范性)的双维评估体系及 SIQA 挑战基准,揭示了现有多模态大模型在科学图像评分一致性上表现良好但科学理解能力不足的差距,从而强调了多维评估对于科学图像质量判断的必要性。

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

Dynamic Targeting of Satellite Observations Using Supplemental Geostationary Satellite Data and Hierarchical Planning

本文提出了一种结合地球静止轨道卫星数据与分层规划方法的动态目标观测新策略,通过利用长达 35 分钟的超前信息制定长期观测蓝图并结合星载传感器进行短期优化,显著提升了云规避和风暴追踪等场景下的观测性能(最高提升 41%)。

Akseli Kangaslahti, Itai Zilberstein, Alberto Candela, Steve Chien2026-03-10💻 cs