Input-Adaptive Generative Dynamics in Diffusion Models
该论文提出了一种输入自适应生成动力学框架,通过训练扩散模型适应不同的生成轨迹,使其能根据样本复杂度动态调整生成过程,从而在保持图像生成质量的同时减少平均采样步数。
2393 篇论文
该论文提出了一种输入自适应生成动力学框架,通过训练扩散模型适应不同的生成轨迹,使其能根据样本复杂度动态调整生成过程,从而在保持图像生成质量的同时减少平均采样步数。
该论文研究了在无直接竞争信息的情况下,基于多臂老虎机的算法代理如何在重复囚徒困境中通过行动同步性自发形成“朴素合谋”,并发现这种合谋现象的发生与否高度依赖于所采用的行为策略(确定性算法必然导致合谋,而持续随机算法则能避免)。
本文针对终身 SLAM 场景,通过联合优化机器人的感知、通信及运动速度等关键参数,旨在最小化搭载激光雷达与里程计的机器人将原始点云数据无线传输至云端进行深度学习建图时的总能耗。
该论文提出了名为 HarmonicEval 的无参考综合评估指标,通过自下而上的方式聚合多准则得分以解决现有指标难以适应多任务场景的问题,并构建了包含 1.8 万条专家标注的 MMHE 基准,实验表明其比传统指标与人类判断具有更高的相关性。
该论文提出了一种利用预训练视觉 - 语言模型(VLM)从少量演示中学习抽象符号世界模型的方法,通过自动构建和筛选谓词,使机器人能够在未见过的复杂场景中实现零样本泛化,从而解决长视野的决策规划问题。
该论文提出了一种基于潜在聚类的数据缩减策略,通过从决策边界附近智能筛选或生成关键样本,在大幅降低半监督对抗训练(SSAT)所需数据量和计算成本的同时,保持了与全量训练相当的鲁棒性。
该论文提出了一种基于枢轴翻译的单模型集成框架,通过枢轴翻译生成多样化的高质量候选译文,并经由后处理聚合步骤筛选融合,从而在不增加多模型训练成本的情况下显著提升了低资源语言对的神经机器翻译质量。
该论文提出了一种名为 GRADIEND 的新型编码器 - 解码器方法,利用模型梯度学习编码社会偏见(如性别、种族和宗教)的特征神经元,从而能够精准定位并修改模型权重以在保留其他能力的同时消除偏见。
本文提出了一种针对带符号网络中极化社区发现的高效局部搜索算法,通过引入新颖的优化目标解决社区规模失衡问题,并首次将局部搜索扩展至允许中性顶点的大规模网络场景,同时证明了其线性收敛性并在实验中展现出优于现有方法的性能。
该论文指出,在联邦学习微调大语言模型时,采用低秩适应(LoRA)策略能在不显著牺牲性能的前提下,将模型对训练数据的记忆风险降低高达 10 倍,且该方法可与其他隐私保护技术结合以进一步提升隐私安全性。
本文提出了 Prompt-SID,这是一种基于潜在扩散过程生成结构提示、利用自监督下采样对进行训练并结合尺度回放机制的单图像去噪框架,旨在解决现有无监督方法在保留图像结构细节方面的不足。
本文提出了一种基于粗粒度划分(CGPs)的离散框架,通过引入范畴统一(CU)和基于 KL 散度的信息损失度量 ,为可解释人工智能中准确性与可解释性之间的权衡提供了数学形式化分析,并揭示了零信息损失在常规评估实践中是极罕见的极限情况。
该论文提出了名为“文本即时间序列”(TaTS)的新框架,通过将具有周期性特征的配对文本视为时间序列的辅助变量,使现有纯数值时间序列模型无需修改架构即可有效处理多模态数据,从而显著提升预测和插补任务的性能。
该论文提出了一种名为 LaVCa 的数据驱动方法,利用大语言模型为图像生成自然语言描述,从而比现有方法更准确、细致地解析人脑视觉皮层中体素的选择性及其功能特性。
该论文提出了一种基于难度聚类的 COD 框架,通过构建具有稳定扩展特性的任务子集并推导映射函数,成功解决了大语言模型下游任务性能预测中因能力涌现和任务难度不均导致的高变异性问题,在 70B 参数模型上实现了仅 1.55% 的平均预测误差。
该研究提出了一种基于多模态 MRI 图像融合(T1、T2、T1ce 和 FLAIR)的胶质瘤亚类分类方法,通过结合 2D 与 3D UNET 分割及加权平均融合技术,并利用预训练 ResNet50 模型进行分类,在 BraTS 数据集上实现了 99.25% 的高准确率,显著优于现有方法。
该研究提出了一种基于 U-Net、Inception 和 ResNet 架构的深度学习混合模型,旨在平衡 2D 与 3D 卷积在计算效率与空间精度间的权衡,通过在 BraTS 数据集上的实验验证,该模型在 3D 和 2D 胶质瘤分割任务中分别实现了 98.91% 和 99.77% 的高准确率,为临床脑肿瘤自动诊断提供了有效解决方案。
该论文提出了一种名为“留一法 PPO"(LOOP)的新型强化学习方法,通过结合 REINFORCE 的方差缩减技术与 PPO 的鲁棒性及样本效率优势,有效解决了文本到图像扩散模型微调中样本效率与最终性能之间的权衡难题。
本文针对现有基于大语言模型的多智能体系统在动态环境(如 Minecraft)中因串行执行导致的响应延迟问题,提出了一种具备可中断执行能力的双线程并行规划 - 行动框架,通过中央记忆系统同步规划线程与技能库驱动的递归执行线程,显著提升了系统的实时响应与适应能力。
该研究提出了一种名为 GlucoLens 的可解释机器学习系统,它利用可穿戴设备、饮食及工作日志等多模态数据,结合大语言模型来预测餐后血糖曲线下面积及高血糖风险,并能通过反事实解释为个体提供个性化的行为干预建议。