You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models
本文提出了名为 GUARD 的新框架,通过一种基于新颖统计机制的跨注意力衰减方法,在推理阶段动态引导扩散模型的生成过程,从而在保持图像质量的同时,有效且鲁棒地缓解了模型对训练数据的记忆(包括逐字和模板化记忆)问题。
4391 篇论文
本文提出了名为 GUARD 的新框架,通过一种基于新颖统计机制的跨注意力衰减方法,在推理阶段动态引导扩散模型的生成过程,从而在保持图像质量的同时,有效且鲁棒地缓解了模型对训练数据的记忆(包括逐字和模板化记忆)问题。
本文提出了 TinyVLM 框架,通过解耦架构、Matryoshka 嵌入蒸馏及量化存储等创新技术,首次实现了仅需不到 1MB 内存即可在微控制器上运行的高效零样本目标检测。
本文提出了首个适用于微控制器的持续目标检测框架“潜在回放检测(LRD)”,通过任务自适应压缩和空间多样性样本选择技术,在仅 64KB 内存预算下实现了高效的增量学习,解决了边缘设备无法在部署后学习新类别的难题。
本文提出了名为 TerrAI 的基于神经网络的解决方案,利用多光谱图像分析小麦田的时空变异性,以支持精准施肥和喷药的数据驱动决策。
该论文提出了 RADS 框架,通过将扩散去噪过程建模为动力学系统并利用可达性分析识别记忆化状态,进而采用约束强化学习在推理阶段引导生成轨迹避开记忆化样本,从而在不修改模型骨干的前提下实现了图像质量、提示对齐度与生成多样性的最优平衡。
本文提出了自适应编辑思维链(ADE-CoT)框架,通过难度感知资源分配、编辑特定验证及深度优先机会性停止策略,有效解决了将图像思维链应用于图像编辑时的资源低效与验证不可靠问题,在显著提升编辑性能的同时实现了超过两倍的推理加速。
本文提出了名为 GrapHist 的新型图自监督学习框架,通过将组织建模为细胞图并结合掩码自编码器与异质图神经网络,在显著减少参数量的同时实现了优于现有视觉模型和全监督图模型的泛化性能,并发布了首个大规模数字病理图基准数据集。
本文提出了一种基于解耦分层变分自编码器的潜在扩散模型(DHVAE),通过 CoTransformer 模块将全局交互上下文与个体运动模式解耦,并结合对比学习与 DDIM 去噪过程,实现了高保真、语义对齐且物理合理的 3D 人机交互生成。
本文提出了 M-Gaussian 框架,通过引入物理一致的磁高斯原语、神经残差场及多分辨率渐进训练策略,将 3D 高斯泼溅技术成功应用于多栈 MRI 重建,在 FeTA 数据集上实现了比现有隐式神经表示方法快 14 倍且达到 40.31 dB PSNR 的高质量各向同性体积重建。
该研究提出了一种结合稀疏自编码器机制分析与平衡一致性损失的低秩适配(LoRA)微调方法,在保持医学视觉语言模型回答准确性的同时,显著降低了其对同一临床问题不同表述的回答不一致率。
本文提出了 ReMD(残差 - 多重网格扩散)框架,通过在每个反向步骤中结合数据一致性与轻量级物理线索进行多尺度残差校正,并利用多小波基捕捉流体结构,从而在无需方程约束的情况下实现了高效、物理一致且谱保真的流体超分辨率重建。
该论文提出了一种无需额外训练、基于梯度的“锚点与垫片”方法,通过操纵扩散模型的潜在空间与交叉注意力机制,成功绕过可见及不可见的版权保护(如水印和签名),实现了对受版权保护图像的高度逼真复制,从而揭示了当前神经模型面临的严重数据剽窃风险。
本文针对机器人操作中单视角易受自遮挡影响的问题,提出了一种多视角架构以预测机器人动作的进展,并通过 Mobile ALOHA 实验验证了该方法的有效性。
本文提出了 EfficientPosterGen 框架,通过语义感知关键信息检索、基于视觉的上下文压缩以及无代理的布局违规检测三大创新,有效解决了现有方法在处理长论文时信息密度低、Token 消耗大及布局验证不可靠的问题,实现了高效且高质量的自动化学术海报生成。
本文提出了 BiCLIP 框架,通过双向多模态融合机制与增强一致性目标,显著提升了医学图像分割在标注稀缺及存在临床伪影等复杂场景下的鲁棒性与语义对齐能力。
本文提出了名为 FujiView 的多模态晚融合框架及包含超 10 万张图像的数据集,通过融合网络摄像头图像与气象数据,实现了对富士山等自然景观可视度的高精度预测(同天预测准确率约 89%),并确立了景观可视度预测作为多模态学习新基准任务的地位。
FlowPortrait 提出了一种基于多模态骨干网络与人类对齐评估系统的强化学习框架,通过组相对策略优化(GRPO)有效解决了音频驱动肖像视频生成中唇形同步、动作自然度及评估指标与人类感知不匹配等挑战,显著提升了生成视频的质量。
该研究通过整合大规模异构数据并采用自监督学习微调 DINOv3 作为骨干网络,构建了 DINOv3-YOLO26 双骨干架构模型,显著提升了蔬菜作物中杂草检测的精度与跨域泛化能力,同时保持了实时推理性能。
本文介绍了 SKINOPATHY AI,这是一款基于智能手机的轻量级计算机视觉 Web 应用,通过五个可解释的筛查模块(涵盖红眼量化、眨眼率估计、瞳孔光反射分析、巩膜颜色索引及虹膜病变测量),在无需云端 AI 推理和专用设备的条件下,为资源匮乏地区提供了隐私保护的纵向眼科筛查与追踪解决方案。
本文介绍了 GazeXPErT 数据集,该数据集通过收集专家在 346 例 FDG-PET/CT 肿瘤扫描中的眼动追踪数据,旨在提升 AI 模型在肿瘤分割、定位及意图预测方面的可解释性与性能,从而推动其在肿瘤学临床诊断中的应用。