DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation
本文提出了 DiffInk,这是首个基于潜在扩散 Transformer 的全行在线手写生成框架,它通过引入兼具字形精度与风格保持能力的 InkVAE 编码器,实现了内容解耦与风格可控的高效高质量手写轨迹合成。
4196 篇论文
本文提出了 DiffInk,这是首个基于潜在扩散 Transformer 的全行在线手写生成框架,它通过引入兼具字形精度与风格保持能力的 InkVAE 编码器,实现了内容解耦与风格可控的高效高质量手写轨迹合成。
本文提出了名为 SMART-R1 的新型 R1 风格强化微调范式,通过引入面向指标的策略优化算法及"SFT-RFT-SFT"迭代训练策略,有效解决了多智能体交通模拟中的分布偏移问题,并在 Waymo Open Sim Agents Challenge 中以 0.7858 的总真实感元评分刷新了排行榜第一的纪录。
本文提出了基于大规模专家标注偏好数据训练的 EditReward 奖励模型,该模型在多项基准测试中展现出优于现有方法的与人类偏好的一致性,并成功用于筛选高质量数据以提升图像编辑模型的训练效果。
Stylos 提出了一种基于单前向传播的 3D 高斯泼溅框架,利用 Transformer 架构与体素化 3D 风格损失,实现了无需单场景优化或预计算位姿即可从单张或多张图像生成几何感知且视角一致的零-shot 3D 风格化场景。
本文提出了名为 CB 的新型多模态文化意识基准,该基准基于漫画构建,包含多语言、多任务及渐进式难度的问答数据,旨在揭示当前多模态大模型在跨文化理解与生成能力上与人之间的显著差距,并推动相关研究发展。
本文提出了 LVTINO,这是首个利用视频一致性模型(VCMs)作为先验的零样本即插即用逆求解器,旨在解决高清视频恢复中帧间时序不一致的难题,并在保证测量一致性与平滑过渡的同时,实现了超越现有逐帧图像恢复方法的感知质量与计算效率。
本文提出了 DragFlow 框架,通过引入基于区域的仿射变换监督、集成个性化适配器并利用多模态大语言模型消除歧义,首次成功将 FLUX 等 DiT 模型的强大生成先验应用于拖拽编辑任务,显著提升了编辑效果并确立了新的最先进水平。
本文提出了一种名为 ChainMPQ 的免训练方法,通过构建由多视角问题引导的图文交错推理链,利用累积的图文记忆增强关键区域并逐步验证关系,从而有效缓解大型视觉语言模型中的关系幻觉问题。
该论文提出了一种名为 VA-Adapter 的视觉 - 动作适配器,通过将其嵌入超声基础模型以在线注入个体三维结构理解能力,从而在仅需极少参数(约为强基线模型的 1/33)的情况下,显著提升了超声心动图探头引导系统的性能。
本文提出了名为 TTOM 的训练无关框架,通过引入测试时优化与参数化记忆机制,在推理阶段动态对齐视频生成模型与时空布局,从而有效解决了现有模型在运动、数量及空间关系等组合场景下的生成难题。
该论文提出了“可泼洒神经基元”(Splattable Neural Primitives)这一新型体素表示法,通过将有界神经密度场编码为浅层神经网络,实现了无需射线追踪的精确解析积分,从而在保持与 3D 高斯泼洒(3D Gaussian Splatting)相当的高质量与新视角合成速度的同时,将所需基元数量减少了 10 倍、参数量减少了 6 倍。
本文提出了名为 LinearSR 的框架,通过创新性的 ESGF 训练策略、基于信噪比的混合专家架构以及轻量级 TAG 引导范式,首次系统性地解决了线性注意力机制在真实感图像超分辨率中面临的训练不稳定与感知 - 失真权衡难题,实现了兼具卓越感知质量与高效推理速度的生成式超分辨率模型。
该论文提出了 PHyCLIP 模型,通过在一个笛卡尔积超双曲空间上采用 -积度量,成功统一了视觉 - 语言表征学习中的概念层级结构与跨概念组合性,并在多项任务中超越了现有方法。
本文提出了一种名为 CSL 的统一协同学习框架,通过语义相关特征学习与标签恢复的相互增强机制,有效解决了不完整多标签图像识别中语义特征学习困难和缺失标签恢复的挑战,并在多个基准数据集上取得了优于现有最先进方法的性能。
本文提出了名为 UniFlow 的统一像素流分词器,通过层自适应自蒸馏技术融合预训练视觉编码器的语义特征,并结合轻量级基于补丁的像素流解码器,有效解决了视觉理解与生成任务间的性能权衡难题,在多项基准测试中实现了理解与生成能力的双赢。
该论文提出了一种通过自监督预训练实现端到端像素空间生成建模的新框架,无需依赖 VAE 即在 ImageNet 上实现了超越现有像素级及潜在空间方法的 SOTA 性能,并首次成功训练出无需预训练 VAE 的高分辨率一致性模型。
本文提出了受果蝇嗅觉电路启发的 Fly-CL 框架,通过解决预训练模型持续表征学习中的多重共线性问题,在显著降低训练时间的同时实现了与现有最先进方法相当甚至更优的性能。
本文提出了 Mono4DGS-HDR,这是首个基于高斯溅射技术、无需相机位姿即可从交替曝光的单目低动态范围视频中重建可渲染高动态范围 4D 场景的统一两阶段优化框架。
LightMem 是一种受人类记忆模型启发的轻量级内存增强生成系统,它通过分层组织记忆(感觉、短期和长期)并采用离线更新机制,在显著提升问答准确率的同时大幅降低了 token 消耗和 API 调用次数,有效平衡了大语言模型在动态环境中的性能与效率。
该论文提出 BioCAP 模型,通过利用多模态大语言模型生成受维基百科引导的合成描述性字幕作为额外监督信号,有效弥补了生物学领域实例级文本数据的不足,从而显著提升了生物基础模型在物种分类和图文检索任务中的性能。