Factuality Matters: When Image Generation and Editing Meet Structured Visuals
本文针对现有视觉生成模型在处理结构化图表时缺乏事实准确性的问题,构建了包含 130 万高质量数据的大规模数据集,提出了融合 VLM 与 FLUX.1 的统一模型及三阶段训练策略,并发布了名为 StructBench 的评测基准与 StructScore 指标,系统性地推动了结构化视觉内容的生成与编辑研究。
6311 篇论文
本文针对现有视觉生成模型在处理结构化图表时缺乏事实准确性的问题,构建了包含 130 万高质量数据的大规模数据集,提出了融合 VLM 与 FLUX.1 的统一模型及三阶段训练策略,并发布了名为 StructBench 的评测基准与 StructScore 指标,系统性地推动了结构化视觉内容的生成与编辑研究。
本文提出了 TIGeR 框架,通过让视觉语言模型调用外部工具执行精确几何计算而非依赖内部感知,结合自研数据集与两阶段训练策略,成功实现了机器人任务中所需的厘米级几何推理精度。
本文提出了 ToMCLIP 框架,通过引入基于持久同调的拓扑对齐损失和图稀疏化近似策略,在保留共享嵌入空间全局几何结构的同时,有效解决了多模态大模型跨模态对齐中的英语偏见问题,显著提升了多语言零-shot 分类与检索性能。
该论文提出了 COGS 框架,通过将种子问题分解为感知与推理因子并重组生成合成数据,有效解决了图表等人工图像领域缺乏大规模标注数据的难题,显著提升了多模态大语言模型的视觉推理与泛化能力。
本文通过大规模研究揭示了马氏距离 OOD 检测性能对特征表示几何结构(类内谱结构与局部内在维度)的依赖性,并提出了通过径向缩放 归一化来主动调控特征空间几何形态,从而显著提升检测效果的新方法。
本文提出了 Kaleido,一种通过构建高质量一致性训练数据并引入参考旋转位置编码(R-RoPE)机制,从而显著提升多参考图像条件下主体一致性与背景解耦能力的开源多主体参考视频生成模型。
本文提出了一种名为 PCP 的新型弱监督框架,它利用类别级概念先验作为弱监督信号,无需显式标注或语言模型即可实现可解释的医学诊断,在 PH2 和 WBCatt 等数据集上显著提升了概念预测性能并保持了与全监督模型相当的分类效果。
本文提出了一种纹理引导的高斯 - 网格联合优化框架,通过同步优化网格几何与顶点颜色,实现了兼顾几何精度与渲染真实感的统一重建,从而有效支持下游编辑任务。
该论文提出了一种名为“边缘感知语义协同”的新框架,通过边缘感知潜在重编码和不确定性优化机制,有效解决了极端条件下事件与 RGB 模态的异构融合难题,显著提升了语义分割的鲁棒性。
本文提出了 NeuCLIP,一种通过凸分析与变分分析将对比损失中的归一化项估计重构为辅助神经网络预测问题的新型优化框架,从而在大规模 CLIP 训练中克服了传统方法对大批次或分块坐标更新的依赖,实现了更准确的归一化估计与更优的训练性能。
本文通过建立统一的训练评估流程解决人体姿态预测中的复现问题,借鉴语音模型提升预测性能,并引入新数据变体评估了含噪声估计姿态下的模型鲁棒性及无监督微调的恢复效果。
MatPedia 是一种基于新型联合 RGB-PBR 表示的通用生成基础模型,它利用视频扩散架构和混合数据集,在单一框架下实现了高质量、多样化的物理渲染材料生成、图像转材料以及内在分解任务。
本文提出了 VideoChat-M1,一种基于多智能体强化学习的视频理解框架,通过创新的协作策略规划(CPP)机制,使多个智能体能够动态生成、执行并相互沟通优化工具调用策略,从而在多个基准测试中实现了超越现有最先进模型(如 Gemini 2.5 Pro 和 GPT-4o)的卓越性能。
本文提出了 UniLight,一种通过对比学习和辅助球谐预测任务将文本、图像、辐照度及环境图等多种光照模态统一到共享潜在空间中的表示方法,从而实现了跨模态的光照检索、环境图生成及扩散模型图像合成中的灵活光照控制。
本文针对潜在扩散模型逆问题求解器不稳定的问题,通过识别其与稳定反向扩散动力学的差异,提出了一种基于测量一致朗之万更新的理论驱动型即插即用模块(MCLC),从而在无需线性流形假设的情况下显著提升了求解器的稳定性与可靠性。
本文提出了一种名为 WCC-Net 的三维扩散模型框架,通过引入小波变换构建的结构先验来引导全身低剂量 PET 图像去噪,在显著降低噪声的同时有效保持了解剖结构的连续性与一致性,并优于现有的 CNN、GAN 及扩散基线方法。
该研究提出了一种基于多阶段投影驱动的全自动端到端流程,通过融合正交二维分割估算三维掩膜以提取感兴趣区域,并利用集成 2.5D CNN-Transformer 模型实现了高精度的颈椎骨折检测,其性能媲美专家且降低了中间处理阶段的维度。
本文提出了面向医疗领域的 VRFT-Aug 框架,通过注入先验知识、感知驱动策略优化、医学奖励塑形及行为模仿等策略增强感知与推理能力,显著提升了医疗视觉强化微调的效果并优于现有基线。
本文介绍了首届生物识别步态国际竞赛,该竞赛利用全球最大的 UNB StepUP-P150 数据集评估了 23 支参赛队伍的模型性能,其中 Saeid_UCC 团队以 10.77% 的等错误率(EER)夺冠,同时也揭示了当前技术在跨鞋类泛化方面仍面临的关键挑战。
该论文提出了 VidEoMT,一种仅依赖编码器且无需专用跟踪模块的简易视频分割模型,通过轻量级的查询传播与融合机制实现跨帧信息传递,在保持高精度的同时将推理速度提升了 5 至 10 倍。