POET-X: Memory-efficient LLM Training by Scaling Orthogonal Transformation
本文提出了 POET-X,一种基于正交变换的内存高效大语言模型训练框架,它在保持原有 POET 方法训练稳定性和泛化能力的同时,显著降低了计算开销与显存占用,从而实现了在单张 GPU 上预训练十亿参数级模型。
1290 篇论文
本文提出了 POET-X,一种基于正交变换的内存高效大语言模型训练框架,它在保持原有 POET 方法训练稳定性和泛化能力的同时,显著降低了计算开销与显存占用,从而实现了在单张 GPU 上预训练十亿参数级模型。
本文提出了一种基于扩散模型的新方法,通过融合多尺度文本 - 视觉特征来解决开放词汇伪装实例分割(OVCIS)中目标与背景边界模糊的难题,从而实现对未见类别伪装目标的有效分割。
本文提出了 RAEE 框架,通过将早期退出建模为分布预测问题并利用检索增强技术获取相似数据的退出信息,在显著加速大语言模型推理的同时实现了跨任务的鲁棒零样本性能提升。
该研究提出了一种结合大语言模型与澳大利亚国立大学计算机科学领域学术知识图谱的创新系统,通过深度文档模型和知识图谱增强查询处理技术,实现了对学术文献细粒度语义信息的精准检索与高效问答。
该研究通过操纵语言模型的训练数据,利用英语被动化例外现象证实了动词的被动化能力既受频率(固化)也受语义(受影响性)的独立影响,并展示了通过控制输入数据来探究语言习得机制的方法论价值。
该论文提出了“自然语言单元测试”这一评估范式,并构建了结合多目标训练的统一评分模型 LMUnit,通过细粒度、可解释的测试标准显著提升了评估的一致性与有效性,在多个基准测试中取得了领先或具有竞争力的表现。
该论文揭示了由数据生成器与评估器之间的模型关联性(如相同模型、继承关系或同一家族)所引发的“偏好泄露”污染问题,并通过实验证实了这种隐蔽且普遍的偏差会显著影响 LLM 作为评估者的公正性。
OSCAR 提出了一种新颖的查询依赖型在线软压缩与重排序方法,通过动态压缩检索信息并消除存储开销,在显著加速推理过程的同时,为不同规模的检索增强生成(RAG)模型实现了精度无损的性能提升。
本文提出了一种利用多模态大语言模型构建交互数据集并采用分解增强细化策略(\model)的方法,通过概念分解、图像批判及局部扩散去噪,显著提升了文本生成图像中物体间丰富交互细节的质量。
该论文提出了“噪声到意义的递归自我改进”(N2M-RSI)形式化模型,论证了当 AI 代理将自身输出作为输入并跨越特定信息整合阈值时,其内部复杂度将在假设下无限增长,且该框架可自然扩展至智能体群聚场景。
该论文提出了包含 8000 多道题目的新基准 PubHealthBench,用于评估大语言模型对英国政府公共卫生信息的掌握程度,研究发现尽管最新模型在选择题测试中表现优异甚至超越人类,但在自由回答场景下准确率仍不足 75%,表明在提供自由文本回复时仍需额外的安全保障措施。
该论文通过推导基于豪斯多夫距离的闭式误差界揭示视觉令牌剪枝中提示对齐与视觉保留的内在权衡,并提出多目标平衡覆盖(MoB)方法,将剪枝重构为双目标覆盖问题,从而在显著加速多模态大模型的同时保持其性能。
该论文提出了 R1-Code-Interpreter,一种通过多阶段强化学习和课程学习策略训练的大语言模型,使其能够自主利用代码解释器解决多样化任务,在 14B 参数规模下显著超越 GPT-4o 及其代码解释器版本,并展现出 emergent 的自我检查能力。
该论文提出了监督校准(SC)框架,通过在 logits 空间学习最优的仿射变换并引入正则化技术,克服了现有方法仅能平移决策边界的局限,从而显著提升了大语言模型在上下文学习中的分类性能与稳定性。
本文通过系统研究揭示了语言模型偏好模型因过度依赖长度、结构等表面特征而产生的系统性偏差,并提出了一种基于反事实数据增强的后训练方法,有效降低了模型的校准误差并提升了评估可靠性。
本文提出了名为 CounselBench 的大规模基准测试,通过 100 名心理健康专家对多种大语言模型在真实求助场景下的回答进行多维度评估与对抗性测试,揭示了模型在提供安全、个性化且具临床谨慎性的心理健康问答方面存在的系统性缺陷及现有自动评估的局限性。
本文提出了一种无需训练的“内部置信度”方法,通过利用模型层间和词元间的自评估信号,在生成前即可高效识别大语言模型的知识边界,从而在问答和推理任务中实现更优的自适应推理并降低计算成本。
该论文提出了一种利用用户实时纠正替换错误来缓解发音与正字法不匹配问题的上下文偏置方法,在保持整体性能的同时,将偏置词的错误率相比基于文本的替换方法降低了 22% 至 34%。
本文提出了 RLVER 框架,利用可验证的模拟用户情感奖励通过强化学习显著提升了大语言模型的同理心能力,使其在 Sentient-Benchmark 基准测试中得分从 13.3 跃升至 79.2,同时保持了数学与编程等核心能力。
本文介绍了 UQLM,这是一个用于大语言模型幻觉检测的 Python 工具包,它通过集成先进的不确定性量化技术,为提升 LLM 输出可靠性提供了即插即用的置信度评分解决方案。