Factuality Matters: When Image Generation and Editing Meet Structured Visuals

本文针对现有视觉生成模型在处理结构化图表时缺乏事实准确性的问题,构建了包含 130 万高质量数据的大规模数据集,提出了融合 VLM 与 FLUX.1 的统一模型及三阶段训练策略,并发布了名为 StructBench 的评测基准与 StructScore 指标,系统性地推动了结构化视觉内容的生成与编辑研究。

Le Zhuo, Songhao Han, Yuandong Pu + 8 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

本文提出了 VideoChat-M1,一种基于多智能体强化学习的视频理解框架,通过创新的协作策略规划(CPP)机制,使多个智能体能够动态生成、执行并相互沟通优化工具调用策略,从而在多个基准测试中实现了超越现有最先进模型(如 Gemini 2.5 Pro 和 GPT-4o)的卓越性能。

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs