Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting
该论文提出了 Splat2Real 框架,利用 3D 高斯泼溅(3DGS)生成可扩展的新视角数据,并通过引入结合几何增益与外推惩罚的 CN-Coverage 课程学习策略,有效解决了物理 AI 在单目 RGB 到 3D 感知任务中因视角偏移导致的性能不稳定问题,显著提升了模型在未见视角下的鲁棒性。
1863 篇论文
该论文提出了 Splat2Real 框架,利用 3D 高斯泼溅(3DGS)生成可扩展的新视角数据,并通过引入结合几何增益与外推惩罚的 CN-Coverage 课程学习策略,有效解决了物理 AI 在单目 RGB 到 3D 感知任务中因视角偏移导致的性能不稳定问题,显著提升了模型在未见视角下的鲁棒性。
本文提出了名为 SLiM 的解码器无关掩码建模框架,通过结合对比学习与语义管状掩码策略,在消除计算冗余的同时实现了骨骼动作表征学习的效率与性能双重突破。
该论文提出了名为 ROVA 的训练框架及 PVRBench 基准,通过引入抗扰动一致性奖励和难度感知在线训练策略,显著提升了视频推理模型在天气、遮挡等真实世界干扰下的鲁棒性与推理能力,并验证了其在标准基准上的泛化收益。
该论文利用 NeuCo-Bench 对地球观测基础模型(GeoFMs)的嵌入设计进行了系统分析,揭示了骨干架构、预训练策略及聚合方式等关键选择对下游任务性能的影响,并证明了通过特定设计可将原始数据压缩为 500 倍以上的紧凑嵌入,同时保持广泛的下游任务适用性。
本文提出了一种针对 JPEG XS 标准中帧内模式复制(IPC)位移向量搜索的高效流水线 FPGA 架构,通过优化存储组织实现了 38.3 Mpixels/s 的高吞吐量和低功耗,为其实用化部署及 ASIC 实现奠定了基础。
本文提出了 A²-Edit 框架,通过构建包含 50 万对图像的大规模多类别数据集 UniEdit-500K,并引入混合 Transformer 模块与掩码退火训练策略,实现了仅凭粗略掩码即可对任意类别对象进行精确参考引导编辑的统一修复方案。
该论文提出了一种名为 MapGCLR 的半监督学习方法,通过在向量化的在线 HD 地图构建模型中引入基于重叠鸟瞰图特征网格的地理空间对比损失,利用多轨迹数据增强自监督训练,从而在减少标注依赖的同时显著提升了地图感知性能。
该论文受视觉皮层边界补全机制启发,设计了名为 BorderNet 的卷积神经网络滤波器,通过在多个数据集上测试条纹和网格两种遮挡情况,证明了该架构在提升图像遮挡鲁棒性方面的有效性。
该论文提出了一种名为 RandMark 的视觉基础模型所有权验证方法,通过在内部表示中嵌入随机数字水印,实现了对功能复制模型的高效检测,同时保证了极低的误报率和漏报率。
UniCom 提出了一种基于压缩连续语义表示的统一多模态建模框架,通过注意力语义压缩器替代离散化与空间下采样,在保留丰富语义先验的同时实现了卓越的生成性能、图像编辑可控性及训练稳定性。
本文提出了 WalkGPT,一种将语言推理与分割统一于单一架构中的像素级大视觉语言模型,旨在通过多尺度查询投影和校准文本投影实现深度感知的无障碍导航指导,并发布了包含 4.1 万张图像的大规模基准数据集 PAVE 以验证其在地面导航任务中的有效性。
该论文提出了一种名为 CTCNet 的新型跨光谱交通认知网络,通过原型引导知识嵌入和质量感知光谱补偿模块,结合首个大规模光热红外基准数据集 Traffic-VQA,显著提升了无人机在复杂光照条件下对交通场景的鲁棒感知与复杂违规行为认知能力。
本文介绍了 eLasmobranc 数据集,这是一个专为支持细粒度物种分类和生物多样性监测而构建的公开图像数据集,包含来自西班牙地中海东部七种生态相关软骨鱼类的专家验证标注图像及元数据。
本文提出了一种名为 Just-in-Time (JiT) 的无需训练的框架,通过利用生成过程中的空间冗余性,基于稀疏锚点令牌动态加速扩散 Transformer 的推理,在 FLUX.1-dev 模型上实现了高达 7 倍的加速且几乎无损生成质量。
该论文提出了一种基于旋转单光源和逐像素轻量级神经网络的无标定事件相机光度立体视觉系统,通过直接利用事件信号预测表面法线,有效解决了传统方法对受控光照的依赖,并在高动态范围、强环境光及稀疏事件区域展现出卓越的鲁棒性和精度。
该论文提出"CodePercept"框架,通过构建包含100万组“图像 - 描述 - 代码”三元组的大规模数据集(ICC-1M)及新基准(STEM2Code-Eval),利用可执行代码作为精确的感知媒介来增强多模态大模型在 STEM 领域的视觉感知能力,并证实了提升感知能力比单纯提升推理能力更能有效解决 STEM 视觉推理难题。
该论文提出了一种名为“条件退化引导”(CDG)的新范式,通过用策略性退化的条件替代传统的空提示来生成引导信号,从而在不增加额外训练或计算成本的情况下,显著提升了扩散模型在复杂组合任务中的语义控制精度。
该论文提出了一种名为“超级神经元”(Super Neurons)的免训练方法,通过直接探测视觉语言模型浅层中生成的标量激活值来构建分类器,从而在显著提升分类性能的同时实现高达 5.10 倍的推理加速。
该论文针对透明玻璃器皿中化学实验监测的难点,提出了包含新数据集 CTG 2.0 和融合局部 - 全局注意力机制与边界校准模块的 LGA-RCM-YOLO 模型,实现了高精度的相界面实例分割,从而为实验室自动化提供了一种可靠的视觉传感器。
本文通过分析流匹配框架下优化动力学的二次型几何特性,揭示了标准训练在跨样本干扰控制上的不足,进而提出了语义粒度对齐(SGA)方法,通过干预向量残差场有效缓解梯度冲突,显著提升了文本到图像合成模型的收敛效率与结构完整性。