Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness
该论文指出,在缺乏外部验证的领域,通过增加推理计算量(如多数投票或集成策略)无法提升大语言模型的真实性,因为模型间的错误高度相关且自我置信度不可靠,导致聚合结果往往只是强化了共同的误解而非验证真理。
3852 篇论文
该论文指出,在缺乏外部验证的领域,通过增加推理计算量(如多数投票或集成策略)无法提升大语言模型的真实性,因为模型间的错误高度相关且自我置信度不可靠,导致聚合结果往往只是强化了共同的误解而非验证真理。
本文提出了一种名为 OptiRoulette 的随机元优化器,它通过在训练过程中动态选择更新规则,在多个图像分类基准测试中显著提升了收敛速度和最终准确率,并实现了比单一 AdamW 基线更可靠的训练目标达成率。
该论文提出了一种名为“退火协同生成”(ACG)的框架,通过将高维联合建模解耦为低维成对建模,并利用三阶段退火过程耦合共享变量,从而在无需额外训练的情况下实现了高效且一致的多元科学数据协同生成。
本文提出了 RACER 方法,通过将大语言模型路由问题建模为-VOR 问题并利用有限样本浓度界限进行校准,实现了在无需分布假设的情况下对误路由风险的控制,从而在降低成本的同時显著提升了下游任务的准确性。
本文提出了名为 Evo 的新型大语言模型,该模型通过构建连续潜变量轨迹,将自回归与扩散生成范式统一为自适应平衡的语义演化框架,在保持高效推理速度的同时,于多项基准测试中实现了卓越的语言理解、推理及代码生成性能。
该论文提出了一种拓扑感知框架,通过结合领域基础模型、拓扑感知图分词器及知识蒸馏策略,有效解决了多路生物网络中结构序列信息整合困难及未见实体零-shot 交互预测的挑战,并显著提升了预测性能。
本文提出了 NAT(Not All Tokens Are Needed)框架,通过基于 Horvitz-Thompson 重加权的无偏部分 Token 策略梯度估计器,仅利用生成 Token 的子集进行强化学习更新,在保持数学推理等基准任务性能与全 Token 训练相当的同时,显著降低了长思维链场景下的计算成本与显存占用。
本文提出了 GraphSkill,这是一种文档引导的层次化检索增强编码框架,通过利用文档层级结构进行检索以及引入自调试智能体来修复逻辑错误,从而显著提升了大语言模型在复杂图推理任务中的代码生成质量与效率。
本文利用 PJM 小时能耗数据,通过对比 ARIMA、LSTM、BiLSTM 和 Transformer 四种模型,证实了基于自注意力机制的 Transformer 模型在 24 小时短期电力负荷预测中凭借 3.8% 的 MAPE 取得了最优的精度与鲁棒性。
本文提出了探索空间理论(EST),通过将知识空间理论形式化地移植到基于位置的推荐系统中,利用格论和形式概念分析建立了兴趣点间先决依赖关系的数学基础,并据此构建了具备线性时间复杂度、推荐有效性保证及可解释性等结构优势的探索空间推荐系统(ESRS)。
该论文提出了一种基于集体学习的图卷积网络方法,通过整合相邻路段特征与观测路段间的依赖关系,有效解决了路面状况数据中系统性缺失值的插补问题。
该论文提出了 Grouter 框架,通过从已训练好的 MoE 模型中蒸馏高质量路由结构并将其作为固定路由器,成功将路由优化与权重更新解耦,从而显著加速了 MoE 模型的收敛速度并提升了训练吞吐量。
该论文通过将大语言模型的“令牌”定义为具有可测量热力学成本的物理量,结合信息论、热力学及经济学原理构建了全球令牌供需模型,旨在量化人类向 AI 系统提出有意义问题的物理与经济上限,并指出在算力约束下,决定性的挑战并非能回答多少问题,而是如何确定哪些值得提问。
本文提出了首个面向大语言模型的智能家居基准数据集 SmartBench,涵盖正常与异常设备状态及行为上下文,评估结果显示当前主流模型在检测和处理智能家居异常状态方面仍存在显著不足。
该论文提出了名为 HEARTS 的统一基准,旨在通过整合 16 个真实数据集和 110 项任务来评估大语言模型在健康时间序列上的分层推理能力,研究发现当前模型在复杂时序推理上表现不佳且单纯扩大规模无法解决这一问题,从而为开发下一代医疗推理智能体提供了标准化测试平台。
本文提出了 RECAP 方法,这是一种结合未训练储层动力学与自组织赫布原型读出机制的生物启发式图像分类策略,通过局部突触可塑性规则实现无需反向传播的鲁棒识别,并在未见过的图像噪声下展现出优异的泛化能力。
SR-TTT 通过引入基于损失门控的稀疏记忆机制,将高惊异度的关键令牌动态路由至精确注意力残差缓存,从而在保持 O(1) 内存占用的同时解决了传统测试时训练(TTT)模型在精确回忆任务中的灾难性遗忘问题。
本文提出了一种基于自适应信任评分机制的联邦学习框架,通过利用频率响应数据的频谱特征来解读骨愈合阶段,有效解决了分布式医疗传感环境中不可靠或对抗性参与者带来的安全挑战,从而在保障模型完整性的同时提升了训练稳定性与预测性能。
该论文提出了一种利用状态分层多智能体架构结合大语言模型与小语言模型(SLMs)的 5G/6G 意图驱动网络编排新框架,实验表明两者在翻译精度上表现相当,但 SLMs 能将编排生命周期整体完成速度提升 20%。
针对虚拟现实环境中缺乏直接交互线索的背景物体状态变化检测难题,该论文提出了专用的 ObjChangeVR 数据集,并设计了结合视点感知、时序检索与跨视角推理的 ObjChangeVR 框架,显著提升了多模态大模型在此类任务上的表现。