MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting
本文提出了 MoE-GS,这是首个将混合专家(MoE)技术引入动态高斯泼溅的框架,通过新颖的体素感知像素路由自适应融合多种形变先验以提升动态新视图合成质量,并借助单遍渲染、门控剪枝及知识蒸馏等策略有效缓解了模型容量增加带来的效率挑战。
1871 篇论文
本文提出了 MoE-GS,这是首个将混合专家(MoE)技术引入动态高斯泼溅的框架,通过新颖的体素感知像素路由自适应融合多种形变先验以提升动态新视图合成质量,并借助单遍渲染、门控剪枝及知识蒸馏等策略有效缓解了模型容量增加带来的效率挑战。
本文提出了 AnyPcc 通用点云压缩框架,通过引入具备多粒度先验的通用上下文模型和实例自适应微调策略,有效解决了现有方法在跨密度场景及分布外数据上的泛化难题,在 15 个多样化数据集上实现了低复杂度下的最新压缩性能。
本文提出了一种结合主动机械臂搅拌与启发式置信度闭环控制的自动化方法,通过优化搅拌模式(四圈)和自适应调速策略,有效解决了水陷阱中害虫因遮挡导致的计数不准问题,显著降低了计数误差并缩短了任务执行时间。
本文提出了 CountFormer 框架,通过结合 DINOv2 自监督视觉基础模型与位置编码,在严格无样本设置下探索了利用视觉重复和结构特征提升类无关物体计数性能的有效性,并在 FSC-147 基准上取得了具有竞争力的结果。
SAGE 提出了一种无需微调的零样本方法,通过结合线稿与光流的结构引导及生成式合成技术,有效解决了在语义差异大或时间跨度长的多样化视频片段之间生成高质量、结构连贯过渡帧的难题。
该论文提出了一种名为“扩散回弹”的取证方法,通过分析图像在扩散模型重建过程中的感知相似性变化来检测 AI 生成图像,在 4000 张图像数据集上实现了 0.993 的 AUROC 高精度,并展现出对压缩和噪声等常见失真的鲁棒性。
本文介绍了名为"Jr. AI Scientist"的先进自主 AI 科研系统,该系统通过模拟初级研究者的完整工作流程,在基准论文基础上成功生成并验证了具有科学价值的新算法与论文,同时深入评估了其性能优势、当前局限性及潜在风险,为理解 AI 驱动科学探索的现状与未来挑战提供了重要见解。
本文针对高斯泼溅(GS)重建质量评估的挑战,提出了一种模拟人类真实观看行为的多距离主观评估方法,并构建了首个考虑输入数据多重不确定性的 MUGSQA 数据集及相应基准,旨在全面评估不同 GS 方法的鲁棒性及现有质量指标的准确性。
本文提出了名为 CountOCC 的开放世界遮挡计数框架,通过分层多模态引导重建被遮挡物体的特征并引入视觉等价目标,有效解决了现有方法在遮挡场景下的失效问题,并在多个数据集上实现了显著的性能提升。
本文提出了一种名为“角度梯度符号法”的新型对抗攻击策略,该方法通过利用双曲空间的几何特性,仅沿切空间中的角度(语义)方向施加扰动,从而在图像分类和跨模态检索等任务中实现了比传统方法更高的攻击成功率,并揭示了双曲嵌入的深层脆弱性。
本文提出了 Video2Layout 框架,通过利用连续物体边界坐标构建度量级认知地图,替代传统的离散网格表示,从而显著提升了多模态大语言模型在空间推理任务中的精度与泛化能力。
本文提出了一种名为 MOMNet 的无对齐多阶匹配网络,通过联合执行零阶、一阶和二阶匹配来自适应检索并整合与深度图一致的 RGB 信息,从而在无需严格对齐的情况下实现了鲁棒且领先的深度超分辨率性能。
本文提出了一种名为 DualMindVLM 的视觉语言模型,通过利用预训练模型对不同任务自然响应长度的差异,结合 GRPO 算法构建显式的双模式思维机制,使其能根据问题复杂度自主或手动选择快速直觉或慢速推理模式,从而在显著提升视觉推理性能的同时实现了高效的 Token 利用。
本文提出了一种辐射结构化神经算子(RSNO),通过结合物理先验、神经算子连续映射及角一致性投影(ACP)优化,实现了从多光谱图像到连续且物理一致的高光谱图像的超分辨率重建。
本文提出了 UnfoldLDM,一种将深度展开网络与潜在扩散模型相结合的新型盲图像恢复框架,通过多粒度退化感知模块估计未知退化,并利用抗退化扩散先验与过平滑校正 Transformer 协同解决现有方法对退化模型的依赖及纹理过平滑问题,从而在多种盲恢复任务中实现领先性能。
本文提出了一种结合高效视觉检测、轻量级多目标跟踪、GNSS 三角测量及置信度加权扩展卡尔曼滤波的多无人机系统,通过跨无人机 ID 对齐算法实现了海洋机器人在水面及近水面环境下的稳定、实时且高精度的全局跟踪。
本文提出了 Yo'City,一种利用大模型推理与组合能力的智能体框架,通过“城市 - 街区 - 网格”分层规划、基于自批评的图像合成循环以及关系引导的扩展机制,实现了个性化且无限可扩展的逼真 3D 城市场景生成。
该论文提出了一种名为“捷径不变性”的潜在空间正则化方法,通过在解耦潜在空间中识别捷径对齐轴并注入各向异性噪声来实施定向雅可比正则化,从而在不依赖捷径标签或冲突样本的情况下,有效抑制捷径学习并提升模型的分布外泛化能力。
该研究提出了名为 ForamDeepSlice 的高精度深度学习框架,通过构建严谨的 2D 微 CT 切片数据集并采用集成卷积神经网络模型,实现了 95.64% 的有孔虫物种分类准确率,同时开发了支持实时分类与三维匹配的交互式仪表盘,为微古生物学鉴定建立了新基准。
本文提出了 S2AM3D 框架,通过结合 2D 分割先验与 3D 一致性监督,利用点一致部分编码器和尺度感知提示解码器解决了现有 3D 点云部件分割中泛化性差和视图不一致的问题,并发布了大规模数据集以实现具有卓越鲁棒性和粒度可控性的分割性能。