Does FLUX Already Know How to Perform Physically Plausible Image Composition?
该论文提出了无需训练的 SHINE 框架,利用预训练扩散模型(如 FLUX)内在的物理先验,通过流形引导锚定损失和自适应背景融合等技术,实现了在复杂光照与高分辨率场景下物理真实且无缝的图像合成,并发布了包含多样化挑战条件的 ComplexCompo 基准数据集以验证其优越性能。
4305 篇论文
该论文提出了无需训练的 SHINE 框架,利用预训练扩散模型(如 FLUX)内在的物理先验,通过流形引导锚定损失和自适应背景融合等技术,实现了在复杂光照与高分辨率场景下物理真实且无缝的图像合成,并发布了包含多样化挑战条件的 ComplexCompo 基准数据集以验证其优越性能。
本文提出了首个端到端生成四边形网格的自回归框架 QuadGPT,通过统一三角与四边形的混合拓扑分词方法以及特化的 tDPO 强化学习微调策略,显著超越了传统的“三角转四边”流程,在几何精度和拓扑质量上均实现了突破。
本文提出了 DistillKac,一种利用阻尼波动方程及其随机 Kac 表示来实现有限速度概率传输的图像生成模型,通过引入速度空间中的无分类器引导和仅端点蒸馏策略,在保持数值稳定性的同时实现了高质量图像的快速生成。
该论文针对现有视觉情感评估方法的局限性,提出了一种开放词汇、多面向且可扩展的自定义评估框架,通过构建“情感陈述判断”任务及自动化数据生成流水线,系统评估了多模态大语言模型在情感理解与主观感知方面的能力与不足。
本文提出了 COMPASS 框架,该框架通过在模型特征空间中对敏感子空间进行扰动来直接校准,从而为医学图像分割任务中的下游指标(如器官大小)生成比传统方法更高效且覆盖范围更紧的共形预测不确定性区间,并能在协变量偏移下保持目标覆盖率。
本文提出了名为 CircuitSense 的层次化多模态大模型基准,通过涵盖 8000 多个从感知到设计的全流程电路问题,揭示了当前先进模型在视觉识别任务上表现优异但在从电路图推导符号方程等数学推理能力上存在显著短板,从而确立了符号推理作为评估工程智能核心指标的重要性。
本文提出了 NeuroAdapter 框架,通过直接将脑表征条件化于潜在扩散模型并引入双向可解释性分析(IBBI),在实现高质量视觉重建的同时,有效揭示了不同脑区对图像生成过程的贡献。
本文提出了 DiffInk,这是首个基于潜在扩散 Transformer 的全行在线手写生成框架,它通过引入兼具字形精度与风格保持能力的 InkVAE 编码器,实现了内容解耦与风格可控的高效高质量手写轨迹合成。
本文提出了名为 SMART-R1 的新型 R1 风格强化微调范式,通过引入面向指标的策略优化算法及"SFT-RFT-SFT"迭代训练策略,有效解决了多智能体交通模拟中的分布偏移问题,并在 Waymo Open Sim Agents Challenge 中以 0.7858 的总真实感元评分刷新了排行榜第一的纪录。
本文提出了基于大规模专家标注偏好数据训练的 EditReward 奖励模型,该模型在多项基准测试中展现出优于现有方法的与人类偏好的一致性,并成功用于筛选高质量数据以提升图像编辑模型的训练效果。
Stylos 提出了一种基于单前向传播的 3D 高斯泼溅框架,利用 Transformer 架构与体素化 3D 风格损失,实现了无需单场景优化或预计算位姿即可从单张或多张图像生成几何感知且视角一致的零-shot 3D 风格化场景。
本文提出了名为 CB 的新型多模态文化意识基准,该基准基于漫画构建,包含多语言、多任务及渐进式难度的问答数据,旨在揭示当前多模态大模型在跨文化理解与生成能力上与人之间的显著差距,并推动相关研究发展。
本文提出了 LVTINO,这是首个利用视频一致性模型(VCMs)作为先验的零样本即插即用逆求解器,旨在解决高清视频恢复中帧间时序不一致的难题,并在保证测量一致性与平滑过渡的同时,实现了超越现有逐帧图像恢复方法的感知质量与计算效率。
本文提出了 DragFlow 框架,通过引入基于区域的仿射变换监督、集成个性化适配器并利用多模态大语言模型消除歧义,首次成功将 FLUX 等 DiT 模型的强大生成先验应用于拖拽编辑任务,显著提升了编辑效果并确立了新的最先进水平。
本文提出了一种名为 ChainMPQ 的免训练方法,通过构建由多视角问题引导的图文交错推理链,利用累积的图文记忆增强关键区域并逐步验证关系,从而有效缓解大型视觉语言模型中的关系幻觉问题。
该论文提出了一种名为 VA-Adapter 的视觉 - 动作适配器,通过将其嵌入超声基础模型以在线注入个体三维结构理解能力,从而在仅需极少参数(约为强基线模型的 1/33)的情况下,显著提升了超声心动图探头引导系统的性能。
本文提出了名为 TTOM 的训练无关框架,通过引入测试时优化与参数化记忆机制,在推理阶段动态对齐视频生成模型与时空布局,从而有效解决了现有模型在运动、数量及空间关系等组合场景下的生成难题。
该论文提出了“可泼洒神经基元”(Splattable Neural Primitives)这一新型体素表示法,通过将有界神经密度场编码为浅层神经网络,实现了无需射线追踪的精确解析积分,从而在保持与 3D 高斯泼洒(3D Gaussian Splatting)相当的高质量与新视角合成速度的同时,将所需基元数量减少了 10 倍、参数量减少了 6 倍。
本文提出了名为 LinearSR 的框架,通过创新性的 ESGF 训练策略、基于信噪比的混合专家架构以及轻量级 TAG 引导范式,首次系统性地解决了线性注意力机制在真实感图像超分辨率中面临的训练不稳定与感知 - 失真权衡难题,实现了兼具卓越感知质量与高效推理速度的生成式超分辨率模型。
该论文提出了 PHyCLIP 模型,通过在一个笛卡尔积超双曲空间上采用 -积度量,成功统一了视觉 - 语言表征学习中的概念层级结构与跨概念组合性,并在多项任务中超越了现有方法。