Mitigating Unintended Memorization with LoRA in Federated Learning for LLMs
该论文指出,在联邦学习微调大语言模型时,采用低秩适应(LoRA)策略能在不显著牺牲性能的前提下,将模型对训练数据的记忆风险降低高达 10 倍,且该方法可与其他隐私保护技术结合以进一步提升隐私安全性。
1071 篇论文
该论文指出,在联邦学习微调大语言模型时,采用低秩适应(LoRA)策略能在不显著牺牲性能的前提下,将模型对训练数据的记忆风险降低高达 10 倍,且该方法可与其他隐私保护技术结合以进一步提升隐私安全性。
该论文提出了一种名为 LaVCa 的数据驱动方法,利用大语言模型为图像生成自然语言描述,从而比现有方法更准确、细致地解析人脑视觉皮层中体素的选择性及其功能特性。
该论文提出了一种基于难度聚类的 COD 框架,通过构建具有稳定扩展特性的任务子集并推导映射函数,成功解决了大语言模型下游任务性能预测中因能力涌现和任务难度不均导致的高变异性问题,在 70B 参数模型上实现了仅 1.55% 的平均预测误差。
本文提出了硬件感知低秩适应(HaLoRA)方法,通过在混合存内计算架构中将预训练权重部署于易噪的 RRAM 而将 LoRA 分支部署于无噪 SRAM,并引入理论推导的额外损失函数以增强 LoRA 对噪声的鲁棒性,从而在大幅降低能耗(约降至 A100 的 3%)的同时显著提升了推理精度。
该研究通过自由叙事评估框架发现,尽管大型语言模型因微调技术导致女性角色在职业分布上被过度代表,但其生成的职业性别比例仍比现实数据更贴近人类刻板印象,揭示了当前缓解性别偏见措施面临的悖论与挑战。
本文提出了熵驱动不确定性过程奖励模型(EDU-PRM),该框架通过利用高预测熵自动锚定推理步骤边界,无需昂贵的人工标注即可在 ProcessBench 基准测试中超越现有强基线,并仅用 1.5% 的训练数据实现了与 SOTA 模型相当的性能及更高效的推理。
本文提出了名为 CAWAI 的检索模型,通过联合语义与因果关系的训练目标,解决了现有信息检索系统难以捕捉深层因果意图的问题,并在大规模检索及科学领域问答任务中展现出卓越性能。
该研究证实,利用大语言模型提取认知与语言特征并结合树集成机器学习算法,比直接让模型评分更能准确预测 K-5 数学和阅读题目的难度,从而为减少大规模实地测试提供了高效可行的替代方案。
本文介绍了 DCASE 2025 挑战赛中的第五项任务,即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准,旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展,使其具备接近人类水平的感知与交互能力。
FreeKV 提出了一种无需训练的算法与系统协同优化框架,通过推测检索、细粒度校正及混合内存布局等创新技术,在保持大语言模型推理精度近乎无损的同时,将 KV 缓存检索效率提升了最高 13 倍。
该论文提出了一种结合类比检索与形式化验证反馈的神经符号方法,显著提升了大语言模型在欧几里得几何证明任务中的准确性与可靠性。
本文提出了 MAS-ZERO,这是首个无需验证集即可在推理阶段通过元级设计自我演化、动态分解问题并自适应调整代理配置的自动多智能体系统框架,在多种任务中显著超越了现有手动及自动基线方法。
该论文提出了首个将硬件描述语言(HDL)固有图特征(如抽象语法树和数据流图)与检索增强生成(RAG)相结合的 HDLxGraph 框架,并发布了基于真实项目的 HDLSearch 基准数据集,有效解决了现有 RAG 在处理复杂 HDL 项目时面临的结构性与词汇性不匹配问题,显著提升了搜索、调试和代码补全的准确率。
本文提出了 SwingArena,这是一个通过模拟提交者与审查者协作、结合检索增强代码生成(RACG)处理长上下文并集成持续集成(CI)验证流程的竞争性评估框架,旨在更真实地评估大语言模型在解决 GitHub 实际软件问题中的表现。
本文提出了 MMTU,一个包含 28,000 多个问题和 25 项真实世界任务的大规模基准测试,旨在全面评估大语言模型在专家级表格理解、推理及操作方面的能力,并揭示了当前顶尖模型在此领域仍存在显著不足。
该论文提出了名为 CyclicReflex 的免训练解码策略,通过借鉴优化中的学习率调度思想,利用双向三角波动态调节反思 Token 的生成概率,从而有效平衡过度与不足反思,在无需额外计算成本的情况下显著提升了大推理模型在各类数学与编程基准测试中的性能。
该论文提出了“动机增强强化微调”(MeRF)方法,通过将奖励函数规范作为上下文提示直接注入大语言模型,使其在强化学习过程中明确优化目标,从而显著提升模型在复杂推理任务上的性能。
该论文揭示了多模态大语言模型(MLLM)作为验证器时普遍存在的“同意偏差”问题,并提出了一种名为自我 grounded 验证(SGV)的两步生成方法,通过先独立生成行为先验再评估轨迹,显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。
该论文针对现有大语言模型用户模拟器在多轮对话中难以保持目标导向行为的问题,提出了包含用户目标状态追踪(UGST)的三阶段开发框架及相应评估指标,显著提升了模拟器在 MultiWOZ 和τ-Bench 基准测试中的目标对齐能力。
本文提出了 MathSmith 框架,通过从 PlanetMath 随机采样概念解释对并构建全新问题,结合九种软约束策略与强化学习优化,成功合成出高难度、高多样性的数学推理数据,显著提升了大语言模型在各类基准测试中的表现。