Factuality Matters: When Image Generation and Editing Meet Structured Visuals

本文针对现有视觉生成模型在处理结构化图表时缺乏事实准确性的问题,构建了包含 130 万高质量数据的大规模数据集,提出了融合 VLM 与 FLUX.1 的统一模型及三阶段训练策略,并发布了名为 StructBench 的评测基准与 StructScore 指标,系统性地推动了结构化视觉内容的生成与编辑研究。

Le Zhuo, Songhao Han, Yuandong Pu + 8 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

本文提出了 VideoChat-M1,一种基于多智能体强化学习的视频理解框架,通过创新的协作策略规划(CPP)机制,使多个智能体能够动态生成、执行并相互沟通优化工具调用策略,从而在多个基准测试中实现了超越现有最先进模型(如 Gemini 2.5 Pro 和 GPT-4o)的卓越性能。

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

该研究提出了一种基于多阶段投影驱动的全自动端到端流程,通过融合正交二维分割估算三维掩膜以提取感兴趣区域,并利用集成 2.5D CNN-Transformer 模型实现了高精度的颈椎骨折检测,其性能媲美专家且降低了中间处理阶段的维度。

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI