From Tokenizer Bias to Backbone Capability: A Controlled Study of LLMs for Time Series Forecasting
该论文通过构建三种具有不同预训练策略的模型进行受控研究,揭示了在时间序列预测中,小数据集上的 Tokenizer 过拟合会掩盖大语言模型(LLM)的真实潜力,而即便采用大规模预训练消除偏差,LLM 骨干网络的性能仍有限,且未能一致超越专为大规模时间序列数据训练的专用模型。
11344 篇论文
该论文通过构建三种具有不同预训练策略的模型进行受控研究,揭示了在时间序列预测中,小数据集上的 Tokenizer 过拟合会掩盖大语言模型(LLM)的真实潜力,而即便采用大规模预训练消除偏差,LLM 骨干网络的性能仍有限,且未能一致超越专为大规模时间序列数据训练的专用模型。
该论文采用以幸存者为中心的视角,揭示了由开源换脸模型和大量“去衣”软件构成的“恶意技术生态系统”如何导致当前基于 NIST 报告等标准的 AI 治理框架在应对成人非自愿深度伪造色情内容时存在严重失效与认知缺陷。
本文综述了联邦学习这一去中心化机器学习范式,系统阐述了其架构、生命周期、应对数据异构与隐私保护等关键挑战的技术方案,并探讨了个性化联邦学习等新兴趋势、实际应用及未来研究方向。
本文提出了一种名为 FourierSpecNet 的混合框架,通过将傅里叶谱方法与深度学习相结合来高效近似玻尔兹曼方程中的碰撞算子,该方法不仅具备分辨率不变性和零样本超分辨率能力,还证明了在离散化细化时收敛于谱解,从而在保持高精度的同时显著降低了弹性与非弹性碰撞场景下的计算成本。
本文提出了一种基于异构图神经网络的多任务学习框架,通过集成图剪枝层和加权消息传递机制,在模拟 LHCb 实验环境中显著提升了高亮度对撞机下 beauty 强子的重建性能,同时实现了粒子顶点关联与图剪枝的协同优化及推理效率的扩展。
该论文提出了将奖励建模转化为推理任务的新范式,通过引入自生成评分准则的“准则链”机制及两阶段训练流程,构建了性能超越现有大型模型的推理型奖励模型(ReasRM)。
本文针对线性系统求解中因定义域无界导致的收敛分析难题,提出了一种变体 Polyak 步长策略,在无需限制性假设的情况下证明了熵镜像下降法的收敛性,强化了范数隐式偏差的界,并推广至任意凸-光滑函数,同时提出了一种避免指数运算的替代算法。
本文提出了名为 EVA 的新型事件异步特征学习框架,该框架借鉴语言建模中的线性注意力与自监督学习技术,在保持事件相机高时效性优势的同时显著提升了特征表达力与泛化能力,并在识别与检测任务中超越了现有异步方法。
本文提出了首个全面评估大语言模型在环境、社会和治理(ESG)及可持续发展领域知识掌握程度的基准ESGenius,该基准包含经专家验证的问答数据集与权威语料库,并通过零样本和检索增强生成(RAG)两种评估模式揭示了当前模型在该专业领域的知识缺口,同时证明了RAG技术在显著提升模型表现方面的关键作用。
本文提出了名为 ContextBench 的基准测试,旨在评估生成能激活特定潜在特征或行为且语言流畅的输入的方法,并通过结合大语言模型辅助与扩散模型修复的改进进化提示优化策略,实现了在激发效果与语言流畅度之间的最佳平衡。
该论文提出了名为 Sysformer 的新方法,通过训练一个轻量级 Transformer 模型在输入嵌入空间中动态自适应地优化系统提示,从而在不微调冻结大语言模型参数的前提下,显著提升了模型对有害提示的拒绝率以及对安全提示的遵循度,并有效抵御了复杂的越狱攻击。
该论文提出了一种名为 SPoT 的新颖令牌化策略,通过将令牌连续放置在图像子像素位置而非离散网格上,并利用神谕引导搜索优化定位,从而在显著减少推理所需令牌数量的同时大幅提升性能,将稀疏性重新定义为视觉 Transformer 架构的战略优势。
该论文提出了一种名为 QCAI 的新颖事后解释方法,用于量化 Transformer 解码器中的交叉注意力交互,并通过构建包含 274 个实验测定结构的 TCR-XAI 基准测试,证明了其在 TCR-pMHC 结合预测准确性与可解释性方面均达到了最先进水平。
该论文提出了名为 DejaVu 的攻击方法,通过利用车载网络制造摄像头与 LiDAR 数据间的细微时间错位,揭示了多模态感知系统对时序同步的脆弱性,并证实此类攻击可导致目标检测与跟踪性能大幅下降,进而引发自动驾驶车辆碰撞或幽灵刹车等严重安全事故。
该论文提出了一种基于师生框架的自动课程学习新方法,利用图结构多智能体强化学习作为教师自适应生成涵盖从常规到关键场景的多样化交通行为,从而有效训练出在复杂真实交通环境中更具鲁棒性、平衡性和进取性的自动驾驶智能体。
本文提出了一种名为状态空间神经算子(SS-NO)的紧凑架构,通过引入自适应阻尼和可学习频率调制机制,将结构化状态空间模型扩展至联合时空建模,从而在显著减少参数量的同时实现了针对时间依赖偏微分方程求解算子的最先进性能。
本文提出了一种基于-范数 Moreau 包络构建多元势函数的“多元专家场”新框架,用于图像先验学习,该模型在图像去噪、去模糊及压缩感知 MRI 等多种逆问题中,不仅性能优于传统单变量模型并接近深度学习正则化方法,还兼具训练数据需求少、参数少、速度快、可解释性强以及拥有理论收敛保证等优势。
本文针对过指定的两分量混合线性回归模型,从理论和有限样本层面系统刻画了期望最大化(EM)算法在混合权重初始猜测不平衡与平衡两种情形下的收敛速率差异及统计精度,并揭示了其在低信噪比下的表现。
本文提出了 Kernel VICReg,一种将 VICReg 自监督学习目标引入再生核希尔伯特空间(RKHS)的新框架,通过核化损失函数中的方差、不变性和协方差项,在无需显式映射的情况下实现非线性特征学习,从而在非线性结构显著或样本有限的场景下有效缓解表征坍塌并提升性能。
该论文提出了名为 ScaleZero 的统一多任务规划模型,通过引入混合专家(MoE)架构缓解梯度冲突,并结合动态参数缩放(DPS)策略实现自适应容量分配,从而在仅需 71.5% 环境交互的情况下,实现了与专用单任务智能体相当的性能。