There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training
该论文提出了一种通过自监督预训练实现端到端像素空间生成建模的新框架,无需依赖 VAE 即在 ImageNet 上实现了超越现有像素级及潜在空间方法的 SOTA 性能,并首次成功训练出无需预训练 VAE 的高分辨率一致性模型。
4941 篇论文
该论文提出了一种通过自监督预训练实现端到端像素空间生成建模的新框架,无需依赖 VAE 即在 ImageNet 上实现了超越现有像素级及潜在空间方法的 SOTA 性能,并首次成功训练出无需预训练 VAE 的高分辨率一致性模型。
本文提出了受果蝇嗅觉电路启发的 Fly-CL 框架,通过解决预训练模型持续表征学习中的多重共线性问题,在显著降低训练时间的同时实现了与现有最先进方法相当甚至更优的性能。
本文提出了 Mono4DGS-HDR,这是首个基于高斯溅射技术、无需相机位姿即可从交替曝光的单目低动态范围视频中重建可渲染高动态范围 4D 场景的统一两阶段优化框架。
LightMem 是一种受人类记忆模型启发的轻量级内存增强生成系统,它通过分层组织记忆(感觉、短期和长期)并采用离线更新机制,在显著提升问答准确率的同时大幅降低了 token 消耗和 API 调用次数,有效平衡了大语言模型在动态环境中的性能与效率。
该论文提出 BioCAP 模型,通过利用多模态大语言模型生成受维基百科引导的合成描述性字幕作为额外监督信号,有效弥补了生物学领域实例级文本数据的不足,从而显著提升了生物基础模型在物种分类和图文检索任务中的性能。
VoMP 是一种前馈方法,通过结合多视角特征与几何 Transformer,从真实世界数据中学习到的物理合理材料流形上,快速且准确地预测任意可渲染 3D 对象体素化的杨氏模量、泊松比和密度等机械属性场。
本文提出了受人类多感官协同学习启发的 Concerto 框架,通过结合 3D 模态内自蒸馏与 2D-3D 跨模态联合嵌入,在无需标注数据的情况下学习出具有优越几何与语义一致性的空间表征,从而在 3D 场景感知及开放世界理解任务中取得了超越现有最先进方法的性能。
针对现有混合专家模型(MoE)在扩散变换器(DiT)中因视觉 Token 特性而表现不佳的问题,本文提出了 ProMoE 框架,通过引入包含条件路由与原型路由的两步显式路由引导机制,有效促进了专家专业化并提升了图像生成性能。
本文提出了名为"Brain-IT"的脑启发式方法,通过引入脑交互 Transformer(BIT)有效整合功能相似脑区簇的信息,仅需少量数据即可实现比现有最先进方法更忠实、更高质量的 fMRI 图像重建。
该论文提出了一种仅凭单路语音输入即可生成高分辨率说话人脸视频的新方法,通过结合语音条件扩散模型、统计面部先验、区域增强模块以及基于离散码本的图像渲染网络,实现了从语音直接驱动高质量、高保真且口型同步的说话人脸生成。
本文提出了 ThinkMorph 模型,通过微调 24K 条高质量图文交错推理轨迹,使文本与图像思维形成互补而非同构的协同机制,从而在视觉基准测试中取得显著性能提升,并展现出包括未见视觉操作技能、自适应推理模式切换及测试时扩展能力在内的涌现式多模态智能。
该研究通过系统分析 15 项医学图像分割任务,揭示了其遵循受解剖结构限制的幂律缩放规律,并证明拓扑感知增强策略能通过扩展有效拓扑覆盖来提升数据效率,而不会改变基本的缩放法则。
本文提出了速度对比正则化(VeCoR),一种通过引入“吸引”与“排斥”双向监督机制来增强流匹配模型稳定性的训练方案,有效解决了轨迹误差累积问题,并在 ImageNet 和 MS-COCO 等数据集的低步数及轻量级配置下显著提升了生成图像的质量。
本文提出了名为 UltraViCo 的免训练即插即用方法,通过抑制超出训练窗口 token 的注意力分散,有效解决了视频扩散 Transformer 在长度外推中面临的周期性重复与质量退化问题,将外推极限从 2 倍提升至 4 倍并显著优于现有基线。
本文提出了一种名为 ReSAM 的点监督自提示框架,通过“细化 - 重查询 - 强化”循环机制,仅利用稀疏点标注即可有效克服域偏移问题,显著提升了 Segment Anything Model 在遥感图像分割任务中的性能与鲁棒性。
本文提出了 InnoGym,这是首个旨在通过性能增益和新颖性指标系统评估 AI 代理创新潜力的基准与框架,揭示了当前代理在创造力与有效性之间存在的差距。
本文提出了 AdaptVision,一种受人类主动视觉机制启发的视觉语言模型新范式,它通过粗到细的自适应视觉令牌获取策略和去耦回合策略优化(DTPO)强化学习框架,在显著减少视觉令牌消耗的同时实现了优于现有高效方法的性能。
本文提出了名为 FARL 的框架,通过利用傅里叶分析将图像的相位(结构)与幅度(风格)特征解耦,并借助双交叉注意力机制引导视觉 - 语言模型进行自适应,从而显著提升了其在少样本场景下的泛化能力。
本研究提出了一种基于轻量级无监督变分自编码器(VAE)的模型,利用 3 米分辨率的 Planet Labs 4 波段卫星影像,在约 24 至 30 小时内实现了对苏丹冲突相关火灾区域的近实时检测,其性能在召回率和 F1 分数上均优于传统变化检测方法。
该论文通过构建控制变量实验框架,系统性地揭示了在持续测试时适应任务中,掩码家族(空间域与频域)的选择对模型稳定性的决定性影响,指出在基于 Patch 的架构中空间掩码能通过保持结构连贯性避免灾难性遗忘,而频域掩码的适用性则高度依赖于架构与任务的匹配程度。