DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation
本文提出了一种名为 DivCon 的“分而治之”方法,通过将布局预测分解为推理与规划、将图像生成按难易程度分步合成,有效解决了现有文生图模型在复杂数值与空间关系下的可扩展性难题,并在 HRS 和 NSR-1K 基准测试中显著提升了多物体生成的质量与准确性。
6098 篇论文
本文提出了一种名为 DivCon 的“分而治之”方法,通过将布局预测分解为推理与规划、将图像生成按难易程度分步合成,有效解决了现有文生图模型在复杂数值与空间关系下的可扩展性难题,并在 HRS 和 NSR-1K 基准测试中显著提升了多物体生成的质量与准确性。
本文全面综述了深度伪造生成与检测领域的最新进展,统一了任务定义、数据集与评估指标,系统分析了换脸、表情重演、说话人脸生成、面部属性编辑及伪造检测等四个代表性方向,并通过基准测试评估了主流方法,最后探讨了该领域面临的挑战与未来研究方向。
本文提出了一种针对数据流的加权有放回随机采样新方法,该方法仅需单次遍历即可在未知数据规模下生成具有代表性的样本,并经过理论证明与实验验证,其性能优于现有最先进方法。
该论文指出当前人脸识别测试集存在瓶颈,并提出了三个高质量、无需人工降质的挑战性测试集(Hadrian、Eclipse 和 ND-Twins),旨在通过考察属性差异、相似面孔及严格的“金发姑娘”平衡规则,揭示现有算法在识别具有显著属性差异的同一身份、属性相似的不同身份以及相似面孔(如双胞胎)时的弱点。
本文提出了一种名为 RDM 的循环扩散模型,它利用归一化流显式地以前序噪声帧为条件来生成人体运动,从而在避免完全去噪开销的同时实现了长序列生成并显著降低了推理成本。
本文提出了一种基于转移熵的奖励调制方法,通过在部分可观测马尔可夫决策过程中动态调节智能体间的相互影响力,在不显式建模人类意图或依赖先验知识的情况下,有效促进了人机协作中的隐式沟通并提升了交互性能。
本文提出了一种通用框架,为证明满足特定固定参数可处理性要求的一阶理论中固定否定片段的多项式时间可判定性提供了充分条件,并成功将其应用于弱 Presburger 算术、弱线性实算术及受限 Presburger 算术等实例,证明了这些理论在任意存在量词、合取及固定数量否定符号下的多项式时间可判定性。
本文提出了 MORCoRA,一种多目标搜索式技术,旨在生成既能提升代码质量又能确保拥有合适且空闲的审查者进行及时审查的代码重构序列。
本文介绍了一种基于 28 nm CMOS 工艺的低功耗泄漏积分发放(LIF)神经元设计,其单次脉冲能耗仅为 1.61 fJ,并通过结合监督反向传播与代理梯度技术的量化脉冲神经网络仿真,在 MNIST 数据集上实现了 82.5% 的准确率,展示了其在嵌入式机器学习应用中实现高性能与高能效的潜力。
这项混合方法比较研究通过追踪维基百科中禁忌知识条目的生命周期,揭示了其如何在冲突与有限身份识别的挑战下,通过多元协作、韧性领导力和新兴治理机制得以建立并持续存在。
本文提出了一种名为 MLVAS 的多模态喉镜视频分析系统,该系统通过融合音频关键词检测与基于扩散模型优化的视频声门分割技术,自动提取关键视频片段并生成客观的声带运动指标,从而辅助临床医生对声带麻痹进行更可靠的诊断。
本文探讨了人工智能如何通过自动化测试用例生成与验证、动态适应代码变更及实现自愈测试,来解决传统软件测试在覆盖率、效率和成本方面的局限,同时也分析了高质量数据、模型透明度及人机协作等关键挑战。
本文提出了一种基于 Koopman 算子理论的安全双足机器人导航框架,该方法结合深度强化学习策略与高维线性化动力学模型,通过模型预测控制在复杂密集环境中实现了比基线方法更精准的轨迹预测和更高的导航成功率。
本文提出了由大语言模型赋能的"InterMind"系统,通过引入医生 - 患者 - 家属多方互动机制,并结合检索增强生成与思维链技术,有效解决了传统抑郁评估中角色单一及自动检测缺乏可解释性的问题,显著提升了诊断的准确性、效率与临床实用性。
该论文提出了一种名为 PiVOT 的新型视觉提示机制,通过利用预训练基础模型(CLIP)在线自动生成并优化视觉提示,引导跟踪器生成实例感知特征图以有效抑制干扰物,从而提升通用目标跟踪的性能。
本文提出了名为 S²Sim 的新型系统,通过选择性地符号化模拟配置变体来自动诊断并修复分布式路由配置中的错误,从而在无需人工干预的情况下快速生成符合意图的修复方案。
本文提出了一种名为 Pose Prior Learner (PPL) 的无监督方法,通过分层记忆学习物体类别的通用姿态先验,从而在无需人工标注的情况下显著提升了包括遮挡场景在内的人体及动物姿态估计精度。
本文提出了 ExpGest 框架,这是一种基于扩散模型的首创性全肢体手势生成方法,通过融合音频与文本信息、引入噪声情感分类器及潜在空间对齐技术,有效解决了现有方法在情感表达、语义一致性和全身运动自然度方面的不足,实现了更具表现力和可控性的演讲者动作生成。
本文研究了双边贸易中自私中介设计的收益最大化机制,揭示了在信息依赖且无信息优势下激励相容、服从性与信息性三者不可兼得的“不可能三难”,并分别在卖方成本恒定和中介拥有否决权两种情形下,刻画了具有不同阈值结构的贸易最优机制及其引发的市场效应。
本文提出了一种允许部分计算的 Pebble 游戏新变体以建模任意入度的计算 DAG,并证明了即使对于单级 DAG 且快存仅容纳两个单词的情况,判定是否存在代价为 的最优 Pebble 策略也是 NP-完全问题。