CTCal: Rethinking Text-to-Image Diffusion Models via Cross-Timestep Self-Calibration
该论文提出了跨时间步自校准(CTCal)方法,通过利用低噪时间步形成的可靠文本 - 图像对齐信息来显式监督高噪时间步的表征学习,从而有效提升了文本到图像扩散模型中提示词与生成图像的精确对齐能力。
10073 篇论文
该论文提出了跨时间步自校准(CTCal)方法,通过利用低噪时间步形成的可靠文本 - 图像对齐信息来显式监督高噪时间步的表征学习,从而有效提升了文本到图像扩散模型中提示词与生成图像的精确对齐能力。
本文介绍了一种与新加坡中央医院合作开发的基于 YOLOv5 的 AI 手术系统,通过实时视频分析自动追踪手术纱布的进出,显著提升了计数准确性与处理速度,并支持人工修正以有效预防纱布遗留体内的医疗事故。
该论文提出了名为 DiT-BlockSkip 的内存高效微调框架,通过结合基于时间步的动态补丁采样和基于交叉注意力掩码的块跳过机制,在显著降低显存占用以支持端侧部署的同时,保持了扩散 Transformer 在个性化图像生成任务中的高质量表现。
该论文提出了 OmniPatch 框架,旨在无需访问目标模型参数的情况下,生成一种能够跨图像并在 ViT 与 CNN 架构间有效迁移的通用对抗补丁,以解决自动驾驶语义分割中的黑盒攻击脆弱性问题。
本文提出了名为 PiLoT 的统一框架,通过直接注册实时视频流与地理参考 3D 地图,利用双线程引擎、大规模合成数据集及联合神经引导随机梯度优化器,实现了在 GNSS 拒止环境下 UAV 自定位与目标定位的高精度、低延迟及零样本泛化能力。
本文提出了仅使用交叉熵损失即可生成类人单像素锐利边缘的 MEMO 模型,通过构建大规模合成数据集预训练、引入轻量级微调模块以及基于预测置信度的渐进式推理策略,有效解决了传统学习模型边缘过粗的问题。
本文提出了 ME-IQA,一种通过构建记忆库检索语义与感知邻居、利用推理摘要将视觉语言模型重构为概率比较器并结合瑟斯顿模型进行重排序的即插即用测试时框架,旨在解决推理诱导模型在图像质量评估中的离散坍塌问题并提升预测灵敏度。
本文提出了 Co-VLN 框架,通过让在共享环境中并发导航的智能体交换结构化感知记忆以共享视野,有效克服了视觉语言导航中的部分可观测性限制,并在 R2R 基准测试中显著提升了不同范式下的导航性能。
该论文提出了一种名为 Clifford-M 的轻量级骨干网络,通过引入稀疏几何交互替代传统的显式频域分解模块,在仅使用 0.85M 参数的情况下实现了优于大型 CNN 基线的眼底图像多标签分类性能,证明了无需复杂频率工程即可高效捕捉多尺度结构特征。
该论文揭示了多模态大语言模型因单一文本生成目标导致内部视觉表征退化的问题,并提出了预测正则化(PRe)方法,通过强制中间层特征预测初始视觉特征来恢复视觉保真度,从而显著提升模型的视觉语言性能。