Scaling Laws For Diffusion Transformers
该论文首次通过大规模实验证实了扩散 Transformer(DiT)的预训练损失与计算量之间存在幂律关系,从而能够依据计算预算精准预测最优模型规模、数据需求及生成性能,为评估模型表现和数据质量提供了低成本的可靠基准。
6406 篇论文
该论文首次通过大规模实验证实了扩散 Transformer(DiT)的预训练损失与计算量之间存在幂律关系,从而能够依据计算预算精准预测最优模型规模、数据需求及生成性能,为评估模型表现和数据质量提供了低成本的可靠基准。
本文提出了 TextMaster 框架,通过融合高分辨率标准字形信息、感知损失、基于注意力机制的字符级布局约束以及新颖的风格注入技术,实现了在复杂场景下兼具高保真度、精准布局与可控风格的真实文本编辑。
本文提出了 FlowCLAS 框架,通过结合对比学习与异常暴露策略增强归一化流模型,在多个机器人异常分割基准测试中实现了超越现有判别式方法的最先进性能。
本文提出了受“记忆宫殿”启发的 VideoMindPalace 框架,通过构建基于手物交互、活动区域聚类及环境布局的结构化语义图,显著提升了大语言模型在长视频理解中的时空连贯性与人类对齐推理能力,并配套发布了用于评估的 VMB 基准。
本文提出了一种名为 DCENWCNet 的新型深度卷积神经网络集成模型,通过结合三种具有不同配置架构的 CNN 来优化白细胞分类性能,并利用 LIME 技术增强模型的可解释性,从而在 Rabbin-WBC 数据集上实现了优于现有最先进方法的分类精度与诊断可信度。
本文提出了一种名为 STAG 的参数高效微调算法,通过并行运行的图卷积侧网络来适应令牌,在保持分类精度的同时显著降低了 3D 点云 Transformer 微调的时间与空间成本,并发布了包含多个数据集的新基准 PCC13 以验证其有效性。
本文介绍了 UNB StepUP-P150 数据集,该数据集包含 150 名参与者在不同步速和鞋履条件下行走产生的 20 多万次高分辨率足底压力数据,旨在填补公开数据集的空白并推动步态生物识别、生物力学及深度学习研究的发展。
本文提出了一种名为“生成式人体几何分布”的新框架,通过采用 2D 特征图编码分布、以 SMPL 模型为域以及两阶段潜在空间训练策略,显著提升了人体几何生成的保真度与衣物细节表现,在姿态条件生成和姿态合成任务中均超越了现有最先进方法。
本文提出了 Implicit U-KAN 2.0,一种结合二阶神经微分方程(SONO)与 MultiKAN 层的新型隐式 U-Net 架构,旨在通过增强理论可解释性、摆脱输入维度对近似能力的限制,在降低计算成本的同时显著提升医学图像分割的性能。
该论文通过大规模分析 326 个骨干模型,系统研究了图像分类中除准确率外的九个关键质量维度,揭示了预训练策略与数据规模的影响,并提出了名为 QUBA 的综合评分指标以指导模型选择。
本文提出了 DeCon 框架,通过引入加权编码器 - 解码器对比损失实现联合自监督预训练,显著提升了在目标检测、实例分割和语义分割等密集预测任务上的性能。
本文提出了首个利用视觉语言模型(VLM)自动设计运动策略的统一物理框架,通过引入 VLM 引导的相对运动动力学(RMD)表示和新型 Interplay 数据集,实现了无需人工奖励工程即可生成多样化、长程且自然的人机交互动作。
本文提出了一种利用多模态大语言模型构建交互数据集并采用分解增强细化策略(\model)的方法,通过概念分解、图像批判及局部扩散去噪,显著提升了文本生成图像中物体间丰富交互细节的质量。
本文提出了首个针对真实世界文生图系统的多轮越狱攻击方法"Inception",该方法通过利用系统的记忆机制,结合语义分割与递归扩展策略将恶意意图嵌入对话初始记忆,从而有效绕过安全过滤并显著提升了攻击成功率。
本文提出了一种名为 CSASN 的新型多任务学习框架,通过融合 EfficientNet 与 ViT 的双分支注意力机制及动态加权损失函数,有效解决了甲状腺罕见癌超声影像中特征异质性与数据不平衡的难题,显著提升了分类精度与稳定性。
本文深入表征了 iPhone 人像模式下特有的合成散焦噪声模式(SDNP),提出了其精确估计方法,并展示了该模式在跨设备版本溯源及通过掩蔽受干扰区域显著提升 PRNU 相机来源验证准确性方面的关键应用价值。
该论文通过推导基于豪斯多夫距离的闭式误差界揭示视觉令牌剪枝中提示对齐与视觉保留的内在权衡,并提出多目标平衡覆盖(MoB)方法,将剪枝重构为双目标覆盖问题,从而在显著加速多模态大模型的同时保持其性能。
本文针对乌尔都语报纸中 Nastaliq 字体、多栏排版及低分辨率扫描带来的识别挑战,提出了结合 YOLOv11x 文本块提取与 SwinIR 超分辨率增强的预处理方案,并发布了包含近万句标注数据的乌尔都语报纸基准(UNB),通过系统对比证实了微调大语言模型(如 GPT-4o 和 Gemini-2.5-Pro)在低资源复杂脚本识别任务中显著优于传统 OCR 系统。
该论文提出了一种名为“特征混合”的极简多模态异常合成方法,并发布了新的 CARLA-OOD 数据集,旨在通过理论支持的高效合成策略显著提升多模态数据中的分布外检测与分割性能。
本文介绍了首个用于识别数字健康行为改变中矛盾与犹豫(A/H)的多模态视频数据集 BAH,该数据集包含 300 名参与者的 1427 段视频及专家标注,并提供了基准测试结果以突显当前模型在该任务上的局限性及未来改进方向。