TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers
本文提出了 TIDE,一种无需额外训练且无采样开销的文本引导动态外推方法,通过引入文本锚定机制和基于谱进展感知的动态温度控制,有效解决了扩散 Transformer 在高分辨率生成中因注意力稀释导致的结构退化与伪影问题,实现了任意分辨率和长宽比的图像生成。
2536 篇论文
本文提出了 TIDE,一种无需额外训练且无采样开销的文本引导动态外推方法,通过引入文本锚定机制和基于谱进展感知的动态温度控制,有效解决了扩散 Transformer 在高分辨率生成中因注意力稀释导致的结构退化与伪影问题,实现了任意分辨率和长宽比的图像生成。
本文提出了一种名为 bsort 的非比较排序算法,该算法通过统一处理有符号/无符号整数及浮点数,实现了 的时间复杂度和 的辅助空间复杂度,在小字长数据场景下性能可与主流库中的优化混合算法相媲美。
本文针对随机顺序流模型下的单位区间选择问题,提出了一种仅需线性空间且期望近似比达到 0.7401 的单遍流算法,并证明了该性能提升在空间限制下是可能的,同时给出了相应的空间下界。
该论文指出生成式人工智能并非软件工程定性研究的万能解决方案,强调需结合具体研究策略与数据特征审慎应用,并系统探讨了其在定性研究中的机遇、挑战及质量评估标准。
本文提出了名为 FAME 的力自适应强化学习框架,通过结合上肢姿态与双手机械交互力的潜在上下文编码,使全尺寸人形机器人(如 Unitree H12)能够在无需腕部力/力矩传感器的情况下,显著提升在外部力扰动下的站立平衡能力与操作范围。
本文基于两项实证研究,探讨了虚拟现实(VR)和增强现实(AR)在公立教育语言学习中的应用,指出其虽能提升学习动机和情境化体验,但仍面临技术障碍、认知负荷及课程整合等挑战,并提出了优化界面设计、减轻认知负担及加强师资培训等实施策略。
该研究通过对比两款不同交互程度的移动增强现实应用,揭示了交互程度对用户感知体验及社会接受度的复杂影响,强调了在 AR 设计平衡可用性与社会因素的重要性。
该研究通过对比 22 名志愿者在虚拟现实(VR)与笔记本电脑环境下的测试表现,发现学生在两种技术媒介中的作弊行为频率完全相同。
本文提出了 SVG-EAR,一种无需训练的线性补偿方法,通过语义聚类与误差感知路由机制,在稀疏视频生成中高效恢复被跳过注意力块的信息,从而在保持生成质量的同时显著提升推理速度。
本文提出了 SurgCalib,一种基于高斯泼溅(Gaussian Splatting)的无标记手眼标定框架,旨在解决达芬奇手术机器人因线缆拉伸导致的编码器测量不准问题,并通过在 RCM 约束下的两阶段优化实现了高精度的工具位姿估计。
本文针对 Inspire RH56DFX 灵巧手存在的黑盒特性与接触不可靠问题,通过硬件标定、经 Sim2Real 验证的 MuJoCo 仿真模型以及混合闭环速度 - 力控制策略,将其转化为可解析的研究工具,并在插拔与多样化抓取任务中显著提升了成功率。
SkipGS 提出了一种视图自适应的后向跳过机制,通过在后稠密化阶段根据视图损失动态跳过冗余的反向传播,在保持重建质量的同时显著缩短了 3D 高斯泼溅的训练时间。
本文提出了一种基于扩散模型的多模态认证框架,通过联合利用原始模板、打印图案及打印机签名特征,将认证任务转化为打印机分类问题,从而有效区分高质量伪造品与真品并提升泛化能力。
该研究评估了 AI 代理生成微服务的能力,发现尽管其生成的代码质量较高且能较好遵守 API 契约,但在功能正确性上仍存在不一致性,表明完全自主的微服务生成尚未实现。
该研究通过 70 名老年人的实验发现,语音助手的高宜人性虽能提升日常场景下的信任与喜爱度,但在紧急情境中清晰度更为关键,且宜人性与感知智能相互独立,表明面向老年人的 AI 解释需结合个性、情境与受众进行个性化平衡。
本文介绍了 Lockbox,这是一种专为满足严格企业安全与治理要求而设计的零信任架构,旨在通过全生命周期的显式信任验证、强隔离及最小权限原则,确保敏感云工作负载(包括 AI 辅助处理)的安全处理。
本文提出了 ImpedanceDiffusion 框架,通过结合图像条件扩散模型进行全局路径规划、人工势场法实现反应式跟踪以及基于视觉语言模型检索增强生成的语义感知可变阻抗控制,实现了无人机群在杂乱室内环境中无需显式建图即可安全、高效且自适应的协同导航。
本文从新西兰视角出发,分析了软件工程会议面临的地理距离、高昂差旅费及日程冲突等参与障碍,并提出了混合参会模式、成本优化选址及治理改革等策略,以促进全球研究社区的公平参与。
该论文首次将 NVIDIA GPU 的 FP64 张量核心与核融合优化相结合,显著加速了 MFEM 库中的高阶有限元模拟,在 Alps 系统近万张 GPU 上实现了卓越的扩展性,并成功应用于 2025 年戈登·贝尔奖获奖的海啸实时预报应用。
本文提出了一种结合符号执行、大语言模型路径优先化与深度学习分类的混合分析框架,通过形式化验证与实验证明,该框架能有效检测传统及 AI 生成的零日恶意软件,在 AI 生成样本上取得了显著优于现有基线的检测准确率。