EffectMaker: Unifying Reasoning and Generation for Customized Visual Effect Creation

本文提出了 EffectMaker,这是一个通过结合多模态大语言模型进行语义推理与扩散 Transformer 进行上下文视觉学习,从而实现无需针对特定效果微调即可生成高质量、可控且一致的定制化视觉特效的统一框架,并构建了包含 13 万条视频的大规模 EffectData 数据集以增强其泛化能力。

Shiyuan Yang, Ruihuang Li, Jiale Tao, Shuai Shao, Qinglin Lu, Jing Liao2026-03-09💻 cs

StruVis: Enhancing Reasoning-based Text-to-Image Generation via Thinking with Structured Vision

本文提出了 StruVis 框架,通过利用文本化的结构化视觉表示作为中间推理状态,使多模态大语言模型能够在无需生成中间图像的情况下进行“结构化视觉思考”,从而在降低计算成本的同时显著提升了基于推理的文本到图像生成性能。

Yuanhuiyi Lyu, Kaiyu Lei, Ziqiao Weng, Xu Zheng, Lutao Jiang, Teng Li, Yangfu Li, Ziyuan Huang, Linfeng Zhang, Xuming Hu2026-03-09💻 cs

GenHOI: Towards Object-Consistent Hand-Object Interaction with Temporally Balanced and Spatially Selective Object Injection

本文提出了 GenHOI,一种针对预训练视频生成模型的轻量级增强方法,通过引入头滑动 RoPE 实现时间平衡以及设计两级空间注意力门控实现空间选择性,从而在复杂野外场景中显著提升了手 - 物交互视频的物体一致性与生成质量。

Xuan Huang, Mochu Xiang, Zhelun Shen, Jinbo Wu, Chenming Wu, Chen Zhao, Kaisiyuan Wang, Hang Zhou, Shanshan Liu, Haocheng Feng, Wei He, Jingdong Wang2026-03-09💻 cs

Devil is in Narrow Policy: Unleashing Exploration in Driving VLA Models

该论文针对自动驾驶 VLA 模型中因模仿学习导致探索不足的问题,提出了名为 Curious-VLA 的两阶段框架,通过可行轨迹扩展策略和自适应多样性采样等创新方法有效平衡了利用与探索,从而在 Navsim 基准测试中取得了当前最优的性能表现。

Canyu Chen, Yuguang Yang, Zhewen Tan, Yizhi Wang, Ruiyi Zhan, Haiyan Liu, Xuanyao Mao, Jason Bao, Xinyue Tang, Linlin Yang, Bingchuan Sun, Yan Wang, Baochang Zhang2026-03-09💻 cs

Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

该论文通过构建反事实图像集并训练线性探针,分析了轻量级视觉语言模型在自动驾驶场景中对视觉概念的编码机制,揭示了感知失败(概念未线性编码)与认知失败(概念存在但语义对齐错误)两种主要故障模式,并发现物体距离增加会显著降低视觉概念的可分性。

Nikos Theodoridis, Reenu Mohandas, Ganesh Sistu, Anthony Scanlan, Ciarán Eising, Tim Brophy2026-03-09🤖 cs.AI