RSH-SpMM: A Row-Structured Hybrid Kernel for Sparse Matrix-Matrix Multiplication on GPUs
本文提出了 RSH-SpMM,一种面向 GPU 的细粒度行结构混合稀疏矩阵乘法框架,通过自适应行划分、RS-Tile 表示及负载均衡混合内核等技术,有效解决了真实世界稀疏矩阵极度不规则导致的 Tensor Core 利用率低和吞吐量不稳定问题,在各类稀疏负载中实现了 1.27 至 6.13 倍的性能加速。
3462 篇论文
本文提出了 RSH-SpMM,一种面向 GPU 的细粒度行结构混合稀疏矩阵乘法框架,通过自适应行划分、RS-Tile 表示及负载均衡混合内核等技术,有效解决了真实世界稀疏矩阵极度不规则导致的 Tensor Core 利用率低和吞吐量不稳定问题,在各类稀疏负载中实现了 1.27 至 6.13 倍的性能加速。
本文提出了 FormalRTL,一种通过集成软件参考模型作为形式化规范来指导生成与验证、从而解决工业级数据路径设计挑战的可扩展多智能体框架。
本文提出了 Kareto,一种针对大语言模型 KV 缓存的自适应多目标分层存储配置优化器,它通过利用收益递减剪枝策略高效搜索帕累托前沿,并结合细粒度自适应调优机制,在真实工作负载下实现了吞吐量、延迟或成本等指标相比固定配置显著更优的平衡。
本文旨在将原本仅支持生成顺序代码的 ACETONE 框架扩展至多核架构,通过定义处理器分配问题、调研现有方案,并计划实现调度启发式算法、同步机制模板及最坏情况执行时间评估,以生成并行代码。
本文提出了 ChatNeuroSim,一种基于大语言模型智能体的框架,旨在通过自动化工作流和引入设计空间剪枝技术,解决传统存内计算(CIM)架构设计中依赖人工解读、迭代耗时及优化效率低下的问题,从而实现 DNN 加速器的快速部署与配置优化。
本文介绍了开源 Python 框架 `electoral_sim`,该框架通过在二维意识形态空间中模拟选民分布,比较了包括比例代表制在内的多种选举机制及一种基于玻尔兹曼软核的假设机制,以选举结果与选民几何中位数的欧几里得距离为指标评估其表现。
本文提出了 JigsawServe 框架,通过自适应选择模型变体、细粒度 GPU 空间分区以及任务图感知的资源预算分配,联合优化延迟、精度与成本,从而显著提升了复合推理系统在数据中心 GPU 上的服务效率与资源利用率。
该论文提出了 Granulon,一种基于 DINOv3 的多模态大语言模型,通过文本条件粒度控制器和自适应令牌聚合模块,实现了从像素级到粗粒度语义的动态自适应融合,显著提升了细粒度视觉理解能力并降低了幻觉。
本文针对取值于任意度量空间的时间序列匹配问题,提出了一种基于 Hellinger 核作为拉伸惩罚项的弹性时间规整算法,该算法具有立方级计算复杂度。
该论文提出了一种面向 3D 高斯泼溅(3D-GS)的原生可解释水印框架,通过 Trio-Experts 模块与安全性预算感知门控机制实现载体选择与质量保护的解耦,在显著提升鲁棒性与图像质量的同时,利用解耦微调技术实现了水印嵌入位置与选择依据的透明化归因。
该研究探讨了社会机器人指向性凝视在辅助老年人日常任务中的作用,并分析了年龄差异如何影响不同人群对这种非语言线索的社会感知,旨在为设计适应年龄特征的人机交互非语言提示提供依据。
本文提出了具备显式反思机制的视觉生成智能体 VisionCreator-R1 及其反思 - 规划协同优化(RPCO)训练方法,通过解决强化学习中反思与规划优化的不对称性,使其在单图及多图任务基准测试中表现优于 Gemini2.5Pro。
该论文针对康复医疗中缺乏标准化评估和开源多模态数据集的痛点,构建了包含 1.2 万张图像和 17 万问答对的 MedMassage-12K 数据集,并提出了一种结合视觉语言模型进行穴位定位与轨迹规划的分层按摩机器人框架,通过物理实验验证了其在具身医疗中的有效性。
这篇论文通过两位非老龄化研究背景研究者的视角,探讨了人机交互与老龄化研究跨学科合作中的障碍,并分享了他们通过在养老社区志愿服务来培养同理心与深入理解老年人的反思历程。
这项通过在线视频实验的研究发现,机器人执行任务时的“失误”(如拿错或放错)比“滑脱”或“卡顿”对感知可靠性的损害更小,且随后的成功执行足以修复因失败而受损的信任,而无需机器人采取显性的社交修复行为。
本文证明了在命题部分为 CNF 且以存在变量数量 为参数的 d-QBF 问题中,双指数时间复杂度 $2^{2^k}\forall\exists$)的受限情形,提出了几乎最优的改进算法并给出了相应的下界。
该论文提出了一种基于计算机视觉和 YOLOv8 目标检测模型的智能停车分配系统,通过逆透视映射(IPM)融合多路摄像头数据来动态识别空车位,并利用 3D 笛卡尔坐标图模拟停车环境以引导用户,从而为高密度城市提供低成本、高效率的可持续停车解决方案。
本文提出了首个专为水平联邦场景设计的高保真差分隐私表格数据合成框架 HeteroFedSyn,通过引入基于 L2 依赖度度量、无偏估计及自适应选择策略的三项创新,有效解决了异构数据分布下的噪声累积与偏差问题,实现了与集中式合成相当的效用。
本文介绍了 NaviNote 系统,该系统结合视觉高精度定位与智能体架构,使视障人士能够通过语音进行原位空间标注并实现精准导航,从而显著提升了其探索陌生环境的性能与体验。
该研究通过实验发现,时间约束(包括任务可用时长和 LLM 介入时机)会根本性地决定大语言模型是增强还是削弱人类的批判性思维:在时间紧迫时早期或持续使用 LLM 能提升表现,而在时间充裕时则会产生相反效果。