On the Value of Tokeniser Pretraining in Physics Foundation Models
该论文首次系统研究了物理基础模型中 Tokenizer 预训练的价值,发现通过在相同物理系统上进行自编码预训练,可显著提升下游动力学建模的计算效率与精度(VRMSE 降低 64%),并提出了支持运行时调整压缩比的灵活时空压缩操作。
6732 篇论文
该论文首次系统研究了物理基础模型中 Tokenizer 预训练的价值,发现通过在相同物理系统上进行自编码预训练,可显著提升下游动力学建模的计算效率与精度(VRMSE 降低 64%),并提出了支持运行时调整压缩比的灵活时空压缩操作。
DreamCAD 提出了一种利用可微参数曲面从点级监督直接生成可编辑 BRep 的多模态生成框架,结合新构建的百万级 CAD 描述数据集,在无需特定 CAD 标注的情况下实现了大规模训练并显著提升了文本、图像及点云到 CAD 生成的几何保真度。
该论文提出了一种混合管理架构,通过封装复杂子图来优化实时 AI 服务经济中的 DAG 依赖拓扑,从而在去中心化市场中显著降低价格波动并实现与集中式分配相当的资源配置效率。
该论文提出了 RACAS 系统,这是一种通过自然语言交互的协作智能体架构,仅需机器人描述、动作定义和任务指令即可在不修改代码或模型权重的情况下,实现对轮式地面机器人、多关节机械臂及水下车辆等多样化平台的统一闭环控制。
该论文提出了一种名为 ABRA 的对抗性批次表示增强方法,通过将生物批次效应建模为域泛化问题,利用极小化极大优化框架合成最坏情况下的批次扰动,从而在无需额外先验知识的情况下显著提升了高内涵细胞筛选中深度学习模型的泛化能力。
该论文提出了一种名为“后融合稳定器”(PFS)的轻量级模块,它作为现有鸟瞰图融合检测器的即插即用组件,通过稳定特征统计、抑制退化区域及自适应残差校正,在不改变原有架构的前提下显著提升了多模态 3D 检测在相机丢失、低光照等域偏移和传感器故障场景下的鲁棒性。
本文提出了名为 SCOUT 的新方法,通过从大语言模型蒸馏结构化关系知识并直接在 3D 场景图上基于关系启发式规则进行效用评分,实现了在开放世界家居环境中高效、实时且具备泛化能力的交互式物体搜索。
该研究通过大规模扰动实验发现,大型语言模型的道德判断极易受叙事视角、说服性提示及任务协议形式的影响,表明其道德评估结果更多取决于呈现方式而非道德实质,从而引发了关于可复现性与公平性的严重担忧。
该论文通过算法审计揭示,《数字服务法》因对“广告”定义过窄,导致 TikTok 虽在形式上遵守禁止向未成年人投放基于画像广告的规定,却未能有效规制未标注的网红营销等实质商业内容,致使未成年人仍遭受严重的个性化商业诱导,因此呼吁扩大监管定义以填补这一漏洞。
本文针对缺乏理想参考答案的参考自由强化学习场景,提出了通过加权枚举错误而非构建评分标准来生成奖励的“隐式错误计数”(IEC)方法,并在虚拟试衣任务中验证了其优于传统“评分标准即奖励”(RaR)及多种基线的性能。
本文提出了 SecureRAG-RTL 框架,通过结合检索增强生成(RAG)与多智能体零样本技术,显著提升了大语言模型在缺乏公开数据集情况下的硬件描述语言(HDL)漏洞检测能力,并发布了包含真实漏洞的基准数据集以推动相关研究。
该论文提出了一种基于区域感知扩散模型的伪 3D 纵向脑 MRI 病灶修复框架,通过融合多时相上下文信息,在显著提升图像感知保真度与纵向稳定性的同时,实现了比现有最先进方法快约 10 倍的修复效率。
本文提出了一种名为 Ptychi-Evolve 的自主框架,该框架利用大语言模型结合进化机制(如语义引导的交叉与变异)自动发现并演化新的正则化算法,在多种挑战性成像数据集中显著提升了相干衍射成像的重建质量并实现了可解释的算法演化记录。
该论文通过引入 CoT-Control 评估套件发现,尽管推理模型在控制最终输出方面表现较强,但其控制思维链(CoT)内容的能力显著较弱,且随着模型规模增大、强化学习训练、测试时计算增加或问题难度提升而进一步降低,这表明目前 CoT 监控机制不太可能因模型主动操控思维链而失效。
该论文指出,人工智能在地球系统科学中的快速应用若缺乏干预,将因算力与数据基础设施的全球南北差异而加剧气候信息领域的不平等,因此呼吁通过转向以数据为中心的开发模式、建立气候数字公共基础设施以及推动知识共同生产,来确保 AI 革命真正促进全球系统韧性而非加剧不公。
该论文通过一项涵盖全球多地区的大规模调查,从不同社群中提炼出文化的操作性定义,以评估人们对生成式 AI 如何呈现文化 artifacts、概念及价值观的看法与期望,并最终提出了包括参与式方法、超越地理维度的文化考量以及文化“红线”敏感性框架在内的开发建议。
本文提出了 LTLGuard,一种结合约束生成与轻量级形式化一致性检查的模块化工具链,旨在利用资源高效的小型语言模型将非正式需求准确转化为无冲突的线性时序逻辑(LTL)规范。
该论文通过引入更贴近实际的胜率指标重新审视 Best-of-N(BoN)采样,证明在最小假设下其具有统计最优性,并提出一种能消除奖励黑客攻击且保持最优性能的改进变体。
本文介绍了 TML-Bench,这是一个针对 Kaggle 风格表格机器学习任务的自主数据科学智能体基准,通过评估 10 个开源大语言模型在不同时间预算下的端到端表现,发现 MiniMax-M2.1 模型综合性能最佳且性能随时间预算增加而提升。
该论文提出了一种名为 SCORE 的新方法,通过计算各模型主奇异向量的共享正交基并剪枝冲突分量,有效解决了多领域微调模型合并时的子空间冲突问题,从而显著提升了模型在未见领域上的泛化性能。