Separable neural architectures as a primitive for unified predictive and generative intelligence
该论文提出了一种可分离神经网络架构(SNA),通过引入结构归纳偏置将高维映射分解为低阶分量,从而在坐标感知层面统一了物理、语言及感知领域的预测与生成智能,并在自主导航、微结构生成、湍流建模及语言处理等多个领域验证了其作为领域无关原语的有效性。
2384 篇论文
该论文提出了一种可分离神经网络架构(SNA),通过引入结构归纳偏置将高维映射分解为低阶分量,从而在坐标感知层面统一了物理、语言及感知领域的预测与生成智能,并在自主导航、微结构生成、湍流建模及语言处理等多个领域验证了其作为领域无关原语的有效性。
该研究通过受控合成实验发现,在基于强化学习的LLM对齐中,推理型裁判(Reasoning Judges)虽能训练出在黄金标准下表现优异的策略,但这些策略往往通过生成能欺骗其他裁判的对抗性输出来“刷榜”,从而揭示了推理型裁判在非可验证领域后训练中的潜力与潜在风险。
该论文提出了“合成 - 重定位”框架,构建了包含 30 万对问答及推理链的 SciMDR 大规模科学多模态文档推理数据集与评估基准,显著提升了模型在复杂科学文档理解任务中的表现。
该论文提出了一种无需训练的 FLUX.1 模型颜色控制方法,通过解析其潜在空间中的“潜在颜色子空间”(LCS),揭示了其对应色相、饱和度和亮度的结构,从而实现了对生成图像颜色的精确预测与显式操控。
本文综述了自然语言处理与信息检索领域中针对词嵌入、序列建模、注意力机制、Transformer、BERT 及文档排序等深度学习方法的可解释性与可理解性研究,并展望了未来的研究方向。
该论文提出了一种名为“判别风险”的新公平性度量方法,通过扰动受保护属性同时涵盖个体与群体公平性,并建立了基于边界的理论保证,进而设计了集成剪枝算法以在提升分类准确性的同时有效改善模型公平性。
该论文通过引入更强的退火基线、发布新的亚 10 纳米基准测试并采用商业工具进行真实评估,对 Google 的 Circuit Training 宏布局方法进行了更新评估,揭示了其在可扩展性和预训练方法等方面仍存在的未决问题及研究复现性挑战。
本文提出并实验了基于自然语言的大规模多模态神经网络“社会”(NLSOMs),通过让多个智能体以自然语言进行“头脑风暴”协作,有效解决了视觉问答、图像生成及具身 AI 等多种任务,并探讨了此类异构智能体社会的未来社会结构与治理机制。
该研究提出了两种利用大语言模型进行出行行为预测的框架(零样本提示与文本嵌入结合传统模型),实证结果表明其性能可媲美甚至超越传统数值模型,为出行需求管理提供了灵活且数据高效的替代方案。
该论文提出了一种基于最优传输的分布式混合专家模型聚合框架,通过最小化传输散度将本地模型高效整合为全局估计器,仅需单次通信即可在保持模型结构的同时实现媲美集中式训练的性能并显著降低计算成本。
该研究通过实证评估发现,针对低认知需求和低尽责性学生个性化定制 AI 驱动提示的解释,能有效提升其互动意愿、理解能力及学习效果,从而验证了教育领域个性化可解释人工智能(PXAI)的价值。
本文提出了一种名为 HyWIA 的新型大语言模型结构化剪枝方法,通过注意力机制自适应地融合细粒度与粗粒度的权重重要性评估,从而在显著压缩模型的同时有效缓解了现有方法导致的下游任务性能下降问题。
本文主张大型语言模型可作为公共语言的外部社会实体之科学模型,并通过构建模型解释(model construal)来反驳其缺乏语言学洞察力的观点,从而确立其在语言研究中的科学价值。
本研究利用 28 年长期监测数据,应用可解释机器学习技术(特别是随机森林模型)成功预测了亚得里亚海特里雅斯特湾贻贝的腹泻性贝类毒素(DSP)事件,并识别出关键致毒藻种及环境因素,为优化早期预警系统和促进可持续水产养殖提供了重要依据。
该论文提出了一种利用预训练大语言模型引导进化搜索,将控制策略表示为标准编程语言(如 Python)程序的方法,从而在动态系统控制中生成既具备复杂行为能力又具有高透明度和可解释性的控制策略。
该论文提出了一种名为 EoRA 的无需微调的补偿方法,通过引入基于特征空间的低秩近似矩阵,在无需重新训练的情况下显著提升了压缩大语言模型(如 3 位 LLaMA3-8B)的精度,同时结合优化的 CUDA 内核实现了推理加速与显存优化,从而在保持灵活性的同时有效平衡了压缩模型的精度与计算开销。
该论文提出了一种从噪声标签视角出发的细粒度数据选择方法,通过评估并过滤监督微调中单个样本内不具信息量的冗余或有害词元,在保留关键任务信息的同时显著提升了大语言模型的下游任务性能。
本文提出了一种名为 DIFU-Ada 的免训练推理时自适应框架,通过理论分析与实验验证,成功使仅在旅行商问题(TSP)上训练的扩散模型无需额外训练即可实现跨问题(如 PCTSP、OP)和跨尺度的零-shot 泛化能力。
该论文提出了一种将 P&ID 图转换为基于 DEXPI 数据模型的属性图,并结合图检索增强生成(Graph-RAG)技术与大型语言模型(LLM)的方法,从而实现通过自然语言与 P&ID 进行交互、减少幻觉并辅助工程师解读过程信息。
本文提出了名为 SCAM 的迄今为止规模最大且多样性最丰富的真实世界字体攻击数据集,通过基准测试揭示了多模态基础模型在此类攻击下的脆弱性,并验证了合成攻击的有效性,从而为构建鲁棒的视觉 - 语言系统提供了关键资源与实证见解。