Hybrid Diffusion Policies with Projective Geometric Algebra for Efficient Robot Manipulation Learning
本文提出了一种名为 hPGA-DP 的新型混合扩散策略,通过将投影几何代数(PGA)的几何归纳偏置嵌入网络架构(利用 P-GATr 作为状态编码器和动作解码器),显著提升了机器人操作学习的训练效率与任务性能。
6267 篇论文
本文提出了一种名为 hPGA-DP 的新型混合扩散策略,通过将投影几何代数(PGA)的几何归纳偏置嵌入网络架构(利用 P-GATr 作为状态编码器和动作解码器),显著提升了机器人操作学习的训练效率与任务性能。
本文提出了一种名为 MCULoRA 的鲁棒不完整多模态低秩适应框架,通过模态组合感知低秩适应(MCLA)模块解耦共享信息与模态特性,并利用动态参数微调(DPFT)模块基于表征空间可分性优化训练比例,从而有效解决了多模态情感识别中因模态缺失导致的梯度冲突问题并显著提升了预测性能。
本文提出了一种名为 Mamba Snake 的新型深度蛇形框架,通过引入状态空间建模、Mamba 演化模块及双分类协同机制,有效解决了统一医学图像分割中多尺度结构异质性与器官间关系建模的难题,并在五个临床数据集上实现了优于现有最先进方法的平均 3% 的 Dice 提升。
本文提出了,一种无需固定参考视图、采用全排列等变架构的自监督前馈神经网络,通过直接预测仿射不变相机姿态和尺度不变局部点图,在相机位姿估计、单目/视频深度估计及稠密点云重建等任务中实现了最先进的性能。
本文提出了一种基于 Vision Transformer 的深度学习框架,利用主成分分析扩展少量标注数据并融合多源遥感影像,以在缺乏精确地面真值的情况下提升灾后受灾区域分割的平滑度与可靠性,从而增强台湾太空总署的紧急增值产品(EVAP)效能。
本文针对微服务应用自 2018 年以来在复杂交互与动态负载下的自动扩缩容挑战,系统综述了最新方法,并从基础设施、架构、扩缩容策略、优化目标及行为建模五个维度构建了分类体系,旨在平衡资源效率、成本与 SLA 保障。
本文提出了 BrownoutServe 框架,通过引入“联合专家”机制和动态褐出(Brownout)策略,有效解决了混合专家(MoE)大模型在突发负载下的静态部署效率低与 SLO 保障难的问题,显著提升了吞吐量并大幅降低了 SLO 违规率。
本文针对大规模混部微服务集群中的资源竞争与干扰问题,提出并实现了基于 CPI 高精度预测的开源平台 C-Koordinator,有效提升了资源利用率并将应用延迟降低了 16.7% 至 36.1%。
本文提出了一种结合神经形态相机与滚动机制的新型触觉传感器,利用事件驱动多视图立体视觉和贝叶斯融合策略,实现了在 0.5 m/s 高速下对大型工业表面进行亚毫米级精度的连续 3D 扫描,其速度比现有连续触觉传感方法快 11 倍。
本文研究了动态符号执行在 MontiArc 组件与连接器架构语义差异分析中的应用,通过增强模型生成器收集运行时数据以识别关键执行路径,评估了多种执行策略并指出该方法虽具潜力但受限于可扩展性。
本文提出了 MIDAR,一种基于几何感知图 Transformer 的代理 LiDAR 检测模型,它利用微观交通模拟器中的高层特征高效模拟真实的感知效果(包括遮挡和误检),从而在保持低计算成本的同时显著提升了大规模智能交通系统仿真中自动驾驶车辆感知建模的准确性与实用性。
本文提出了一种结合自注意力机制与可解释性可视化的混合 TransUNet-GradCAM 模型,通过融合 Transformer 的全局上下文建模能力与 U-Net 的精细空间定位优势,在多个数据集上实现了具有强泛化能力和高临床相关性的糖尿病足溃疡自动分割。
本文提出了 S²Q-VDiT 框架,通过结合感知 Hessian 的显著数据选择与注意力引导的稀疏令牌蒸馏技术,成功解决了视频扩散 Transformer 在量化过程中面临的长序列校准方差高与学习困难问题,实现了 W4A6 量化下的无损性能、3.9 倍模型压缩及 1.3 倍推理加速。
本文提出了首个面向光谱遥感影像地物提取的多模态大语言模型 SPEX,通过构建融合光谱先验的指令数据集(SPIE)并引入多尺度特征聚合等创新策略,显著提升了多光谱场景下的地物分类精度与可解释性。
本文首次评估了 3D 高斯泼溅技术在 200°超广角鱼眼图像上的表现,发现 160°视场角效果最佳,并创新性地引入 UniK3D 深度估计替代传统 SfM 初始化,成功解决了极端畸变及恶劣天气下的重建难题。
本文利用软件定义无线电(SDR)首次实现了射频环境下基于平方根律的数学可证明隐蔽通信实验验证,填补了该领域除光通信外的研究空白并推动了其实际部署。
该论文提出了一种统一且语义 grounded 的医学图像分割域适应框架,通过构建域无关的解剖学概率流形来解耦图像内容,从而在不依赖显式跨域对齐策略的情况下,在源数据可访问和源数据不可访问两种设置下均实现了具有内在适应性的最先进性能。
本文提出了 Video-EM,一种无需训练的事件中心式情节记忆框架,通过利用大语言模型作为主动代理来构建、精炼并验证连贯的事件时间线,从而有效解决现有视频大模型在处理长视频时因上下文限制和孤立帧选择导致的叙事断裂与冗余问题。
本文提出了首个统一框架 UniUGG,通过结合大语言模型、潜在扩散模型解码器以及几何 - 语义预训练策略,实现了在 3D 模态下对场景的生成、想象及空间视觉问答任务的统一理解与生成。
本文提出了 UniCast,一种通过实例条件提示和动态模态路由机制,在冻结的时间序列基础模型上实现参数高效的多模态融合与实例自适应预测的统一框架。