TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers
本文提出了 TIDE,一种无需额外训练且无采样开销的文本引导动态外推方法,通过引入文本锚定机制和基于谱进展感知的动态温度控制,有效解决了扩散 Transformer 在高分辨率生成中因注意力稀释导致的结构退化与伪影问题,实现了任意分辨率和长宽比的图像生成。
1448 篇论文
本文提出了 TIDE,一种无需额外训练且无采样开销的文本引导动态外推方法,通过引入文本锚定机制和基于谱进展感知的动态温度控制,有效解决了扩散 Transformer 在高分辨率生成中因注意力稀释导致的结构退化与伪影问题,实现了任意分辨率和长宽比的图像生成。
该论文提出了一种利用 Gemma 3 和 Qwen3-VL 等视觉语言基础模型,通过上下文学习从无人机遥感图像中直接生成植物仿真配置(JSON 格式)的新方法,旨在解决功能性结构植物模型在规模化部署中的复杂性瓶颈,并构建了首个针对农业数字孪生三维重建的评估基准。
本文提出了 PathoScribe 框架,通过统一的检索增强大语言模型技术,将静态的病理报告档案转化为支持自然语言检索、自动队列构建及临床推理的“活体图书馆”,显著提升了病理数据的检索效率与临床决策价值。
该论文提出了 BiCLIP 框架,通过利用少量锚点样本学习跨域图像特征间的规范几何变换,以极简的参数量实现了多模态特征的对齐,并在多个基准测试中取得了最先进的零样本域适应性能。
该论文针对真实世界中音视频分布动态演变的挑战,首次提出了一个无样本的音视频分割持续学习基准,并设计了结合音频引导预融合条件与低秩锚定技术的 ATLAS 基线模型,以在避免灾难性遗忘的同时实现持续感知。
本文提出了 SVG-EAR,一种无需训练的线性补偿方法,通过语义聚类与误差感知路由机制,在稀疏视频生成中高效恢复被跳过注意力块的信息,从而在保持生成质量的同时显著提升推理速度。
本文提出了 SurgCalib,一种基于高斯泼溅(Gaussian Splatting)的无标记手眼标定框架,旨在解决达芬奇手术机器人因线缆拉伸导致的编码器测量不准问题,并通过在 RCM 约束下的两阶段优化实现了高精度的工具位姿估计。
SkipGS 提出了一种视图自适应的后向跳过机制,通过在后稠密化阶段根据视图损失动态跳过冗余的反向传播,在保持重建质量的同时显著缩短了 3D 高斯泼溅的训练时间。
本文提出了一种基于扩散模型的多模态认证框架,通过联合利用原始模板、打印图案及打印机签名特征,将认证任务转化为打印机分类问题,从而有效区分高质量伪造品与真品并提升泛化能力。
该论文提出了一种名为“归一化流匹配”(NFM)的新方法,通过利用预训练的自回归归一化流模型来蒸馏准确定性耦合,从而训练出在性能上同时超越独立耦合、最优传输耦合流模型以及教师模型的学生流模型。
本文提出了一种针对卷积神经网络(CNN)的精确且架构感知的平坦度度量方法,通过推导全局平均池化网络中交叉熵损失 Hessian 矩阵迹的闭式解,有效解决了现有方法忽略 CNN 几何结构的问题,从而能够更准确地评估和预测模型的泛化性能。
本文提出了 WS-Net,一种结合状态空间建模与弱信号注意力融合的深度学习框架,通过多分辨率小波编码、Mamba 长程依赖捕捉及自适应门控机制,有效解决了高光谱解混中弱信号被主导端元掩盖的问题,并在多种数据集上显著提升了弱端元的丰度估计精度。
本文提出了 SpectralDiff 框架,通过引入结构化频谱扰动引导扩散过程以抑制多方向雨纹,并设计全积 U-Net 架构利用卷积定理提升计算效率,从而在保持紧凑模型的同时实现了高效的单图像去雨效果。
该研究提出了一种基于增强型 YOLOv8 的双模型框架,通过结合火/烟实例分割与 COCO 预训练目标检测,实现从火灾识别到基于像素距离换算的实时风险量化评估,从而在工程现场提供可部署的智能火灾预警与态势感知系统。
本文提出了 GST-VLA 模型,通过引入高斯空间分词器(GST)将视觉观测转化为具有内在几何结构的 3D 高斯原语,并结合 3D 深度感知思维链(DA-CoT)推理机制,显著提升了机器人在 LIBERO 和 SimplerEnv 等基准测试中的 3D 感知与操作精度。
OmniEdit 是一种无需训练的框架,通过用目标序列替代 FlowEdit 中的编辑序列并消除生成过程中的随机性,实现了高效且稳定的唇形同步与音视频编辑。
本文提出了一种名为“事件中心因果思维链”的新框架,通过物理驱动的事件链推理和过渡感知跨模态提示两个核心模块,将物理现象分解为因果相连的动态事件序列,从而显著提升了视频生成模型在物理合理性方面的表现。
该论文系统诊断了多模态大语言模型在处理图像文本时存在的“模态差距”,发现其主要由渲染因素引发的阅读错误导致,并提出了一种通过自蒸馏利用纯文本推理痕迹来提升视觉文本理解能力的有效方法。
该论文提出了 MedKCO 方法,通过构建基于诊断敏感性和样本代表性的两级课程学习顺序,并引入自适应非对称对比损失,解决了现有医疗视觉 - 语言预训练模型因同时学习简单与复杂概念而导致的特征表示次优问题,从而在多种下游任务中显著提升了性能。
该论文提出了一种无需训练的运动分解框架,通过将复杂运动解耦为静止、刚体和非刚体三类,并采用“先规划后生成”的范式来结构化提示词并解耦生成过程,从而实现了在多种扩散模型中高质量的多实例组合视频生成。