ROSE: Reordered SparseGPT for More Accurate One-Shot Large Language Models Pruning
本文提出了 ROSE,一种针对 SparseGPT 的改进方法,通过引入预剪枝、基于损失的两级重排序策略以及自适应识别列状层,有效解决了原有固定剪枝顺序导致的次优问题,从而在多种主流大语言模型上实现了更精准的单次剪枝效果。
11526 篇论文
本文提出了 ROSE,一种针对 SparseGPT 的改进方法,通过引入预剪枝、基于损失的两级重排序策略以及自适应识别列状层,有效解决了原有固定剪枝顺序导致的次优问题,从而在多种主流大语言模型上实现了更精准的单次剪枝效果。
PixARMesh 提出了一种基于自回归机制的单视图场景重建方法,能够直接从单张 RGB 图像联合预测物体布局与几何,在无需隐式场或后期优化的情况下,一次性生成连贯且适用于下游应用的高质量 3D 室内网格。
该论文针对概念瓶颈模型(CBM)在图像分类中存在的概念信息泄露及性别偏见问题,提出了包括 Top-k 概念过滤、移除偏见概念和对抗性去偏在内的三种缓解技术,显著提升了模型在公平性与性能之间的权衡,推动了可解释且公平图像分类的发展。
该论文针对大语言模型在分子优化任务中因缺乏轨迹数据而导致推理能力退化和奖励稀疏的问题,提出了一种名为 RePO 的参考引导策略优化方法,通过结合强化学习与参考分子引导的混合训练机制,在无需轨迹数据的情况下有效平衡了探索与利用,显著提升了分子优化的成功率与泛化性能。
该论文提出了一种结合节点 Transformer 架构与 BERT 情感分析的集成框架,通过将股票市场建模为图结构并融合多源数据,在 S&P 500 股票预测中显著降低了误差并提升了方向预测准确率。
该论文针对多臂老虎机算法比较中因依赖轨迹导致实验成本高昂的问题,提出了一种名为“人工回放”(Artificial Replay)的新实验设计,通过复用历史轨迹数据,在确保估计量无偏的同时,将实验成本从降至约,并显著降低了估计量的方差。
该论文提出了一种名为 Weak-SIGReg 的协方差正则化方法,通过利用随机投影将表示密度约束为各向同性高斯分布,有效解决了在缺乏架构先验或低数据量场景下深度神经网络(如 ViT 和 MLP)的训练崩溃问题,显著提升了模型的收敛性与准确率。
该论文提出通过引入作者上下文(HuLM 任务)来纠正大型语言模型中的生态谬误,实验表明在 8B Llama 模型上应用人类感知的微调(HuFT)或持续预训练,能显著提升其在多项下游任务中的性能。
本文提出了一种基于 FPGA 的持久状态数据流加速器,通过将 Gated DeltaNet 的完整循环状态驻留于片上 BRAM 并结合流水线数据流设计,成功将内存受限的线性注意力解码转化为计算受限任务,在 AMD Alveo U55C 上实现了比 NVIDIA H100 GPU 快 4.5 倍且能效高出 60 倍的解码性能。
该论文提出了一种结合显式风格解耦(涵盖词汇、句法和语用维度)与隐式思维链蒸馏的框架,使小参数语言模型在低资源条件下也能实现高保真的角色风格化生成,并显著优于更大规模的基线模型。
该论文基于交互主义和建构主义心理学理论,提出了一种融合个体特质与情境特征的机器学习方法,利用大型语言模型分析社交媒体数据以预测心理健康状态,在保持竞争力的同时显著提升了模型的可解释性。
本文提出了一种名为 Omni-Masked Gradient Descent (OMGD) 的内存高效优化方法,该方法通过掩码遍历机制在无需额外显存开销的情况下,将非凸优化场景下的迭代复杂度从 严格提升至 ,并在大语言模型的预训练与微调任务中展现出优于基线的性能。
本文提出了名为 TADPO 的新型策略梯度算法,通过结合离线轨迹的教师指导与在线轨迹的学生探索,成功构建了首个能在极端地形下实现高速驾驶并具备零样本仿真到现实迁移能力的端到端强化学习全尺寸越野车辆系统。
本文提出了 EvoESAP 框架,通过引入基于推测解码的 ESAP 指标并结合进化搜索算法,实现了稀疏混合专家模型的非均匀层间剪枝预算分配,从而在固定全局剪枝比例下显著提升了生成任务性能。
该论文指出 PPO 算法中的性能停滞源于样本估计偏差,并提出通过扩展至百万级并行环境并配合超参数协同缩放策略,可有效解决该问题并实现长达一万亿步的单调性能提升。
本文改进了Klivans等人关于高斯表面面积与多项式逼近度之间关系的分析,将高斯分布下概念类的伪多项式逼近度从提升至,从而在统计查询模型中实现了多项式阈值函数伪学习复杂度的(近)最优界。
本文证明了在张量 PCA 和单指数模型等高维设置中,通过结合噪声注入与随机权重平均(即对迭代过程取平均),朗之万动力学无需显式平滑即可在样本量 时成功恢复隐藏方向,从而达到了与显式平滑算法相同的理论最优速率。
该论文提出了 TempoSyncDiff,一种基于参考条件的潜在扩散框架,通过教师 - 学生蒸馏技术将推理步数大幅减少,从而在保持身份一致性和时序稳定性的同时,实现了低延迟、适合边缘部署的音频驱动说话头生成。
本文提出了 IR-GeoDiff 模型,这是一种利用潜在扩散技术将红外光谱信息整合到分子节点与边表示中,从而从一维光谱直接恢复三维分子几何结构的创新方法。
该论文提出了一种名为 SGDF 的新型优化器,它借鉴最优线性滤波原理,通过在线计算时变增益来动态校准动量,从而在噪声抑制与信号保留之间实现最优权衡,显著提升了深度学习的优化性能。