Activation Function Design Sustains Plasticity in Continual Learning
该论文指出激活函数的选择是缓解持续学习中可塑性丧失的关键架构无关因素,并提出了两种新型非线性激活函数(Smooth-Leaky 及其随机化变体),在监督类增量学习和非平稳强化学习场景中证明了其无需额外容量或特定调优即可有效维持模型适应能力的优势。
8829 篇论文
该论文指出激活函数的选择是缓解持续学习中可塑性丧失的关键架构无关因素,并提出了两种新型非线性激活函数(Smooth-Leaky 及其随机化变体),在监督类增量学习和非平稳强化学习场景中证明了其无需额外容量或特定调优即可有效维持模型适应能力的优势。
本文提出了一种无监督可微框架,通过结合语义感知(将网格分割为语义部分并聚合)和可见性感知(利用环境光遮蔽引导接缝至遮挡区域)目标,实现了无需人工干预的 3D 网格参数化,从而显著提升了纹理生成质量并减少了接缝伪影。
本文提出了名为 Max-V1 的新型单阶段端到端自动驾驶框架,通过将轨迹规划重构为基于视觉 - 语言模型(VLM)的下一航点预测问题,利用统计监督策略在 nuScenes 数据集上实现了超越基线 30% 的性能,并展现出卓越的跨域泛化与鲁棒性。
本文提出了通用 Beta 泼溅(UBS)框架,通过将 3D 高斯泼溅推广为 N 维各向异性 Beta 核,实现了无需辅助网络即可在单一表示中统一建模空间、角度和时间依赖关系的显式辐射场渲染,并在保持向后兼容性的同时显著提升了静态、视角依赖及动态场景的渲染性能。
本文提出了一种名为 CLEAR-IR 的新方法,利用基于 DeepMAO 的多尺度感知架构从受主动发射器图案干扰的红外流中重建清晰图像,从而在无需车载照明的极端低光环境下显著提升机器人感知性能,并使其能够直接复用基于 RGB 图像训练的任务模型。
本文指出机器学习算子(MLOs)在零样本设置下无法实现跨分辨率的准确推理(即存在混叠和泛化失败),并提出了一种高效的多分辨率训练协议以解决这一问题。
本文通过稀疏自编码器(SAE)分析 DINOv2,揭示了其任务特异性概念的分工与几何结构,进而提出基于凸组合原型的“闵可夫斯基表示假设”(MRH),以超越传统的线性稀疏性视角来解释视觉 Transformer 的表征机制。
本文提出了 USplat4D,一种通过估计并传播高斯原语的不确定性来构建时空图,从而解决单目 4D 重建中遮挡和极端视角下运动漂移与合成质量下降问题的动态高斯泼溅框架。
该论文提出了一种利用多模态大语言模型生成物体活动与交互文本描述的新框架,通过对比训练与测试阶段的文本描述来实现可解释且高效的半监督视频异常检测,在复杂交互异常及传统基准数据集上均取得了优异性能。
本文综述了从体渲染到 3D 高斯泼溅(3DGS)的理论演进与应用,在介绍其高效光栅化原理及新视角合成优势的同时,深入探讨了其内存占用、光照烘焙及次级光线效应等局限性,并总结了其在表面重建、数字人建模、动画及内容生成等领域的广泛应用。
本文提出了无需训练的“推测性裁决”(Speculative Verdict)框架,通过结合多个轻量级草稿专家生成多样化推理路径并由强模型进行裁决与共识筛选,有效解决了大型视觉语言模型在处理信息密集型图像时的定位困难与多跳推理挑战,在显著提升准确率的同时实现了计算成本的最优化。
本文提出了 TokenCLIP,一种通过最优传输动态将视觉令牌分配至正交文本子空间以实现细粒度对齐的框架,从而显著提升了零样本异常检测的性能。
该论文针对现有单模态数据集的局限,提出了首个完全由多图像样本构成的 MMSD3.0 基准,并设计了具备跨图像推理与细粒度跨模态融合能力的 CIRM 模型,在显著提升真实场景下多模态讽刺检测性能的同时,也验证了其在单图场景中的通用有效性。
本文提出了一种名为 COLA 的免训练跨模态对齐框架,通过结合子空间投影与最优传输技术,在特征空间中恢复全局图文对齐与局部结构一致性,从而显著提升了 CLIP 模型在对抗攻击下的鲁棒性。
本文提出了一种轻量级的可训练机制“注意力特征聚合”(AFA),通过让视觉运动策略自动聚焦于任务相关视觉线索并忽略无关干扰,显著提升了模型在视觉扰动下的鲁棒性,且无需昂贵的数据增强或预训练模型微调。
该论文提出了一种结合基于分数的正则化机制与重要性加权技术的非独立同分布联合采样框架,旨在解决流匹配模型在有限采样预算下期望估计方差高及多样性不足的问题,从而生成高质量样本并实现无偏估计。
该研究通过对比分析发现,在脑 MRI 肿瘤分类任务中,基于大规模通用数据集预训练的 ConvNeXt-Tiny 模型(准确率 93%)的表现显著优于基于医学专用数据集预训练的 RadImageNet DenseNet121 模型(准确率 68%),表明在数据受限场景下,现代通用架构的迁移学习潜力可能优于领域特定预训练模型。
本文提出了 Q-Save,这是一个包含近 1 万条视频样本及细粒度归因标注的基准数据集,并基于此训练了采用 SlowFast 架构与三阶段训练策略的统一模型,实现了对生成视频在视觉质量、动态质量和文本对齐三个维度上的联合评分与可解释归因。
本文提出了名为 SocialNav 的具身导航基础模型,通过构建包含 700 万样本的 SocNav 数据集,并采用结合模仿学习与基于流的强化学习(SAFE-GRPO)的多阶段训练策略,显著提升了机器人在复杂环境中的导航成功率与社会规范遵循能力。
本文提出了基于强化学习的 SpecTemp 框架,通过轻量级草稿模型与强大目标模型协同工作的双模型设计,在保持长视频理解精度的同时显著解决了现有“基于帧思考”范式中的效率瓶颈。