Geometric Autoencoder for Diffusion Models
本文提出了一种名为几何自编码器(GAE)的框架,通过利用视觉基础模型构建优化的语义监督目标、采用潜变量归一化替代传统 KL 散度以及引入动态噪声采样机制,有效解决了现有潜在扩散模型在语义判别性、重建保真度与紧凑性之间的平衡难题,并在 ImageNet-1K 基准上实现了超越现有最先进方法的生成性能。
3447 篇论文
本文提出了一种名为几何自编码器(GAE)的框架,通过利用视觉基础模型构建优化的语义监督目标、采用潜变量归一化替代传统 KL 散度以及引入动态噪声采样机制,有效解决了现有潜在扩散模型在语义判别性、重建保真度与紧凑性之间的平衡难题,并在 ImageNet-1K 基准上实现了超越现有最先进方法的生成性能。
该论文提出了 GeoSense 框架,通过引入独立几何输入通道并训练模型自主感知 2D 线索的不足,使其仅在必要时动态调用几何特征进行推理,从而在提升空间理解能力的同时避免了计算冗余并保持了原有的视觉推理性能。
该论文通过在大规模股票数据上实施条件扩散模型,揭示了因子维度与偏差 - 方差权衡之间的关键关系,并发现选择适中的因子数量能构建出泛化能力最强、表现优于基准策略的投资组合。
本文针对缺乏内置安全约束的开源代码代理框架 OpenClaw 进行了安全分析,揭示了其原生防御在对抗攻击下的高脆弱性,并提出并验证了一种人机协同(HITL)防御层,显著提升了系统对恶意指令的拦截能力。
该论文通过在 NASA NOS3 仿真环境中演示利用供应链植入的恶意组件成功欺骗卫星遥测数据,揭示了这种源自卫星内部的攻击向量对任务完整性构成的严重威胁,并提出了包括认证遥测和组件证明在内的缓解措施。
ScanDP 提出了一种基于扩散策略的高效 3D 扫描框架,通过采用占据栅格地图和混合路径优化方法,实现了在未见物体类别上具有更强泛化能力、抗噪性及覆盖率的通用扫描。
该研究通过设计名为 AnimaStand 的动画手机支架,将智能手机转化为主动的具身协调者,在四人小组讨论中有效重燃了成员参与度,并提升了群体动态、任务表现及人际关系。
本文针对现有多人姿态估计评估指标过度依赖置信度排序而忽视低置信度误检的问题,提出了一种基于最优传输理论的 OCpose 指标,通过平等评估所有检测姿态并利用置信度优化匹配可靠性,实现了真阳性与假阳性之间的公平权衡。
本文提出了一种名为 SpatioCoupledNet 的混合运动学信息与学习驱动的形状控制方法,通过分层神经网络架构和置信度门控机制,有效解决了柔性超冗余机器人因顺应性导致的稳定性问题,显著提升了其在复杂动态环境下的控制精度、收敛速度及抗干扰能力。
本文提出了一种结合核密度估计与卡方分布匹配的新型损失函数,用于校准高斯轨迹预测器的不确定性,从而显著提升自动驾驶在复杂场景下的规划安全性与可靠性。
本文提出了名为“运动强制(Motion Forcing)”的解耦框架,通过“点 - 形 - 貌”分层范式将物理推理与视觉合成分离,并利用掩码点恢复策略迫使模型学习潜在物理规律,从而在复杂场景下实现了视频生成中视觉质量、物理一致性与可控性的稳定平衡。
该论文提出了一种名为可微分几何索引(DGI)的新方法,通过操作统一(利用 Gumbel-Softmax 和对称权重共享解决优化阻断)和等向几何优化(在单位超球面上使用缩放余弦相似度解决几何冲突),有效解决了生成式检索中索引构建与检索目标解耦及长尾项被热门项掩盖的问题,从而在大规模搜索和电商场景中实现了优于现有基线的性能。
本文提出了 Frames2Residual (F2R) 框架,通过时空解耦策略将自监督视频去噪分为盲时域一致性建模与非盲空域纹理恢复两个阶段,有效解决了现有方法因中心像素掩码导致的纹理丢失问题,从而在 sRGB 和 RAW 视频基准上显著提升了去噪性能。
本文提出了 TractoRC,一种统一的概率学习框架,通过构建共享的流形嵌入空间并采用变换等变的自监督策略,首次将脑白质纤维束的配准与聚类任务联合优化,从而显著提升了两项任务的性能。
该论文提出了 World2Act 框架,通过利用技能组合式世界模型将视觉 - 语言 - 动作策略的动作直接与世界模型的潜在动态对齐,并结合自动 LLM 技能分解流程解决视频生成长度不一致问题,从而显著提升了机器人在真实世界中的泛化能力和性能。
该论文提出了一种确定性算法,仅需 次最短路径距离查询,即可在最大度为 且树长为 的连通无向图中高效重构边集,从而将此类图的重建复杂度相比现有最优算法降低了 因子并达到了下界。
本文提出了名为 COHORT 的基于 ROS 的多机器人协作框架,通过结合离线优势加权回归(AWR)与在线多智能体 PPO 的混合强化学习策略,动态调度大模型推理任务,在满足实时约束的同时显著降低了能耗并提升了 GPU 利用率。
本文提出了一种基于非透明安全代理(NTSP)架构的 TCP/QUIC 安全拆分与加速策略 PEPspace,通过结合利用深空链路预调度特性的速率拥塞控制、自适应前向纠错及理论推导的背压流控机制,有效解决了星际网络中的极端延迟与高丢包问题,显著提升了地球 - 月球场景下的传输性能与稳定性。
本文提出了 AsyncMDE,一种通过异步空间记忆机制将基础模型的高精度与轻量模型的实时性相结合的单目深度估计系统,在显著降低计算成本的同时实现了边缘平台上的高效部署。
该论文提出了 KnowDiffuser,一种将语言模型的语义推理能力与扩散模型的轨迹生成能力相结合的知识引导规划框架,通过先验轨迹初始化和两阶段去噪机制,有效弥合了自动驾驶系统中语义理解与物理运动规划之间的鸿沟,并在 nuPlan 基准测试中显著优于现有方法。