Next Visual Granularity Generation
本文提出了一种名为“下一视觉粒度(NVG)”的新型图像生成框架,通过将图像分解为具有不同唯一标记数量的结构化序列,实现了从全局布局到精细细节的渐进式生成,并在 ImageNet 数据集上展现出优于 VAR 系列的生成性能。
4180 篇论文
本文提出了一种名为“下一视觉粒度(NVG)”的新型图像生成框架,通过将图像分解为具有不同唯一标记数量的结构化序列,实现了从全局布局到精细细节的渐进式生成,并在 ImageNet 数据集上展现出优于 VAR 系列的生成性能。
本文提出了面向开放型医学视觉问答的自适应强化学习框架 ARMed,通过结合思维链监督微调与自适应语义奖励机制,有效解决了现有方法中奖励坍缩问题,显著提升了医学推理模型的准确性与泛化能力。
该论文提出了一种解耦多模态学习框架,通过解耦肿瘤与微环境子空间、跨尺度基因表达一致性对齐、子空间知识蒸馏以及信息令牌聚合等策略,有效解决了组织病理学与转录组数据整合中的异质性、多尺度融合不足及配对数据依赖问题,显著提升了癌症诊断、预后及生存预测的性能。
该论文提出了 TADSR 网络,通过引入时间感知 VAE 编码器和时间感知 VSD 损失函数,解决了现有单步扩散方法因固定时间步而难以充分利用预训练模型生成先验的问题,从而在单次推理中实现了兼具最优性能与可调节保真度 - 真实感权衡的实时图像超分辨率。
FastAvatar 提出了一种基于大高斯重建 Transformer(LGRT)的统一前馈框架,能够利用多样化日常记录在数秒内实现高质量、可增量优化的 3D 高斯溅射(3DGS)人脸重建,有效解决了现有方法在时间复杂度、数据敏感性和利用率方面的挑战。
该论文提出了一种无需微调且无需辅助模型的推理阶段方法 GACD,通过基于梯度的自反思机制估计并抑制文本与视觉偏差,从而有效缓解多模态大语言模型中的幻觉问题并增强视觉 grounding 能力。
本文提出了 RTGMFF 框架,通过结合 ROI 驱动的 fMRI 文本生成、混合频空特征编码器以及自适应语义对齐模块,有效解决了传统模型在信噪比低和缺乏文本标注方面的局限,显著提升了脑疾病诊断的准确性。
本文提出了名为 T2I-CoReBench 的综合基准,通过构建涵盖 12 个维度的复杂评估体系(包括高组合密度场景和多种推理类型),揭示了当前文本生成图像模型在复杂组合场景下能力有限,且在隐式推理方面存在严重瓶颈。
本文提出了 UniView 模型,通过利用多模态大语言模型检索相似物体作为参考先验,并结合可插拔适配器与解耦三重注意力机制,有效解决了单视图新视角合成中的模糊性问题并显著提升了生成质量。
该论文提出了一种结合文本引导生成编辑与区域控制技术的改进方法,通过引入基于参考的注意力共享机制、多深度图参考以及多区域重要性加权切片 Wasserstein 距离损失,有效解决了 3D 场景风格化中视图一致性、风格一致性及区域化风格迁移的挑战。
本文提出了 LADB(潜在对齐扩散桥)框架,通过在共享潜在空间中利用部分配对数据对齐源与目标分布,实现了无需全监督即可在数据稀缺场景下兼顾保真度与多样性的半监督域翻译。
本文提出了名为 TrueSkin 的包含 7299 张图像的系统性数据集,旨在解决当前大模型在肤色识别与生成任务中存在的偏见与准确性不足问题,并通过实验证明该数据集能显著提升相关模型的分类精度与生成保真度。
本文提出了一种名为 BWCache 的免训练方法,通过动态缓存并基于相似度阈值在扩散步之间重用 DiT 块特征,在保持视觉质量的同时将视频生成推理速度提升了高达 6 倍。
本文提出了名为 Brain-HGCN 的基于双曲几何的图卷积网络框架,利用洛伦兹模型和符号聚合机制有效建模大脑功能网络的层级结构与兴奋/抑制连接,并在精神疾病分类任务中显著优于现有的欧几里得基线方法。
本文提出了一种名为 I2S 的多阶段框架,通过利用包含新型“双手空间包络”描述符的 3D 手部姿态特征进行物体识别与交互分析,在 ARCTIC 和 H2O 数据集上实现了高达 97.52% 的 F1 分数,为高安全性增强现实环境提供了轻量级、实时的基于人机交互的用户身份认证方案。
本文提出了一种名为 GeoProto 的新范式,通过利用扩散映射将深度特征的内在流形几何结构融入原型匹配,并结合可微分的 Nyström 插值与紧凑的每类地标集更新策略,显著提升了可解释细粒度识别的准确性与效率。
该论文提出了无需训练的 SHINE 框架,利用预训练扩散模型(如 FLUX)内在的物理先验,通过流形引导锚定损失和自适应背景融合等技术,实现了在复杂光照与高分辨率场景下物理真实且无缝的图像合成,并发布了包含多样化挑战条件的 ComplexCompo 基准数据集以验证其优越性能。
本文提出了首个端到端生成四边形网格的自回归框架 QuadGPT,通过统一三角与四边形的混合拓扑分词方法以及特化的 tDPO 强化学习微调策略,显著超越了传统的“三角转四边”流程,在几何精度和拓扑质量上均实现了突破。
本文提出了 DistillKac,一种利用阻尼波动方程及其随机 Kac 表示来实现有限速度概率传输的图像生成模型,通过引入速度空间中的无分类器引导和仅端点蒸馏策略,在保持数值稳定性的同时实现了高质量图像的快速生成。
该论文针对现有视觉情感评估方法的局限性,提出了一种开放词汇、多面向且可扩展的自定义评估框架,通过构建“情感陈述判断”任务及自动化数据生成流水线,系统评估了多模态大语言模型在情感理解与主观感知方面的能力与不足。