MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning
本文提出了名为 MERLIN 的两阶段模型堆叠框架,通过从通用双语语料到特定任务数据的课程学习策略,并仅微调少量 DoRA 权重,显著提升了多语言编码器与大语言模型在低资源语言复杂推理任务中的表现,在 AfriMGSM 等基准测试中超越了现有方法及 GPT-4o-mini。
1072 篇论文
本文提出了名为 MERLIN 的两阶段模型堆叠框架,通过从通用双语语料到特定任务数据的课程学习策略,并仅微调少量 DoRA 权重,显著提升了多语言编码器与大语言模型在低资源语言复杂推理任务中的表现,在 AfriMGSM 等基准测试中超越了现有方法及 GPT-4o-mini。
该论文针对现有同时性语音翻译延迟评估指标在短文本场景下因分词偏差导致结果不一致的问题,提出了首个涵盖多语言与系统的元评估,并引入了新型指标 YAAL 与 LongYAAL 及重分词工具 SoftSegmenter,显著提升了延迟评估的准确性与可靠性。
该论文系统比较了仅编码器与仅解码器大语言模型在偏微分方程跨模态适应任务中的表现,发现未加改进的仅解码器模型效果远逊于仅编码器模型且无法通过单纯扩展规模提升,为此提出了“并行翻转”和“序列加倍”两种模拟双向性的新方法,成功缩小了两者性能差距并提升了所有任务的表现。
该论文通过引入元评估指标研究发现,现有的语言模型微基准测试方法在评估模型性能差异较小时(如 MMLU-Pro 上相差 3.5 个百分点)往往无法提供可靠的排序,且为了达到与随机采样相当的可靠性,通常需要多达 250 个样本,从而揭示了微基准测试在效率与可靠性之间的严峻权衡。
该论文提出幻觉可分为“无关联幻觉”与“由虚假关联驱动的关联幻觉”,并通过机制分析发现大语言模型的内部状态主要反映参数知识的调用而非输出真实性,导致基于内部信号的传统检测方法难以区分事实性输出与由虚假关联引发的幻觉。
该论文提出了一种“即时目标”(Just-In-Time Objectives)方法,通过被动观察用户行为实时推断并优化其特定目标,从而引导大语言模型动态生成高度个性化的专用工具与高质量交互响应,显著优于传统通用模型。
该论文评估了大语言模型在包含跨句依赖的英法翻译任务中的表现,发现链式思维推理能显著提升模型区分正确翻译和生成高质量翻译的能力,且原本表现较好的模型通过推理获得的提升幅度更大。
该研究通过引入三项子群一致性检验,证实了 ChatGPT 在基于性别和种族/民族群体的协作沟通数据编码中,其表现与人类评分者保持一致,从而验证了其在大规模协作评估中的应用潜力。
该论文提出了一种受贝叶斯实验设计启发的蒙特卡洛推理策略,通过“协作战舰”等任务显著提升了语言模型在信息寻求任务中的提问质量与决策理性,使其在成本极低的情况下甚至能超越人类和前沿模型的表现。
本文提出了首个专为德语自动文本简化设计的评估指标 DETECT,该指标利用大语言模型生成合成数据以克服德语标注语料匮乏的难题,并在简洁性、语义保留和流畅度三个维度上实现了对人类判断的更高相关性。
本文提出了覆盖 59 种非洲语言、包含 14 项任务和 38 个数据集的 AfriMTEB 基准,并发布了通过跨语言对比蒸馏适配的 AfriE5 模型,该模型在多项评估中超越了 Gemini-Embeddings 和 mE5 等强基线,实现了非洲语言文本嵌入领域的最新最佳性能。
该论文提出了一种基于大五人格特质的混合层选择激活空间人格导向框架,通过挖掘模型隐藏状态中的低秩子空间并动态选择最优层进行扰动,实现了对大语言模型人格特质的精准、稳定控制,同时保持了其流畅性与通用能力。
该论文提出“批判性虚构”(critical confabulation)概念,论证了通过精心约束的大型语言模型幻觉,可以在不牺牲历史准确性的前提下,填补因社会政治不平等而造成的档案空白,从而重构被遮蔽历史人物的多元叙事。
该论文提出了一种名为 Co-Layout 的新框架,通过结合大语言模型与基于网格的整数规划,采用由粗到细的优化策略,实现了对室内布局与家具摆放的联合自动优化,在提升设计质量的同时显著提高了计算效率。
本文提出了 SPINE,一种无需标签的测试时强化学习框架,它通过仅更新决定推理分支的关键高熵令牌并施加熵带正则化,有效解决了现有方法在测试时因分布偏移导致的响应缩短和性能下降问题,从而在多种大模型上实现了更稳定且高效的推理能力。
该论文首次系统研究了由大语言模型驱动的单智能体多工具架构中存在的“工具编排隐私风险”(TOP-R),通过构建基准测试揭示其普遍性并分析成因,进而提出了针对输出、推理和审查阶段的有效缓解策略。
该论文提出了一种名为 WBC 的基于滑动窗口的成员推断攻击方法,通过聚合不同尺度局部上下文中的损失比较信号,显著提升了在微调大语言模型中识别训练数据的能力,并揭示了局部证据聚合比全局平均更有效的隐私漏洞。
该论文提出了一种通过集成七种可读性指标和聚类方法微调大语言模型的框架,成功生成了涵盖六个教育阶段的适龄教学内容,在保持事实准确性的同时将年级对齐度相比提示方法提升了 35.64 个百分点,从而有效应对全球师资短缺并促进教育公平。
本文提出了 PyMUSAS 框架,通过构建银标准数据集并融合规则系统与神经网络模型,在五种语言上实现了对 USAS 语义框架的大规模多语言语义标注评估与增强。
该论文指出大推理模型在强化学习后训练中出现了探索崩溃现象,并提出了无需额外训练或参数的“潜在探索解码”(LED)方法,通过聚合中间层后验分布并选择熵最大的深度配置,有效提升了模型在多个推理基准上的准确率。