One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis
该论文首次系统评估了代码分析领域的多任务参数高效微调(PEFT),发现共享 PEFT 模块不仅能以极低的计算和存储成本实现媲美单任务微调的精度,且显著优于通用大模型的直接提示,同时揭示了任务稳定性、互补性及数据质量等关键因素对多任务协同微调效果的决定性影响。
4135 篇论文
该论文首次系统评估了代码分析领域的多任务参数高效微调(PEFT),发现共享 PEFT 模块不仅能以极低的计算和存储成本实现媲美单任务微调的精度,且显著优于通用大模型的直接提示,同时揭示了任务稳定性、互补性及数据质量等关键因素对多任务协同微调效果的决定性影响。
该论文提出了一种名为“目标推理遗忘”(TRU)的新方法,通过引入基于推理的遗忘目标并结合监督损失与梯度上升损失,在实现大语言模型精准、可解释的知识移除的同时,有效保留了模型的通用能力并增强了其鲁棒性。
本文提出了 MoE-SpAc 框架,通过将推测解码重构为内存管理的“信息前瞻传感器”,结合专家需求估计、异构负载均衡及异步执行引擎,有效解决了边缘设备上的 MoE 模型推理内存瓶颈,显著提升了吞吐量与推理速度。
该论文提出了一种通过闭环演化轨迹级经验来优化上下文提示的框架,利用强化学习筛选高效特征变换序列并结合多样性感知选择器与思维链引导大语言模型,从而在特征变换任务中显著提升了生成质量、多样性及下游预测性能。
本文介绍了 TAMUSA-Chat,这是一个面向学术机构的研究框架,通过监督微调、检索增强生成及系统化评估方法,将通用大语言模型适配为符合治理规范与责任 AI 原则的领域专用对话系统,并公开了相关代码以促进可复现的研究与部署。
该研究通过构建土耳其异常测试套件(TAS),系统评估了离线大语言模型在土耳其遗产语言教育中的鲁棒性与教学安全性,发现推理导向的 8B 至 14B 参数模型在成本与安全之间取得了最佳平衡,且异常抵抗能力并不完全取决于模型规模。
该论文从理论层面揭示了大型语言模型如何通过自回归过程精确推断令牌转换概率,从而阐明提示语义理解、上下文学习(通过减少歧义)以及思维链(通过任务分解)的内在机制,并论证了这些高级提示工程技巧在统计上的优越性。
该论文提出利用维基百科、Wikidata 知识图谱及社会科学专家知识构建了包含 2.6 万条多语言问答的"LatamQA"数据集,用于评估大语言模型在拉丁美洲不同国家及语言(西班牙语、葡萄牙语)背景下的表现,揭示了模型在区域知识掌握度、语言原生优势以及对伊比利亚文化相较于拉美本土文化的认知偏差等方面的显著不平等。
本文介绍了 SpreadsheetArena 平台,通过盲测 pairwise 评估来研究大语言模型在生成满足用户显性及隐性约束的电子表格工作簿时的表现,揭示了不同场景下偏好特征的显著差异以及现有模型在金融等专业领域最佳实践对齐方面的不足。
该论文挑战了将欺骗等同于说谎的假设,通过实验证明大型语言模型能在不产生虚假陈述的情况下进行欺骗,且现有的“测谎仪”式探针难以检测此类行为,从而揭示了当前机械式欺骗检测方法的重大盲区。
该论文介绍了 GATech 团队在 AbjadGenEval 共享任务中利用多语言 E5-large 编码器检测阿拉伯语机器生成文本的方法,发现尽管尝试了多种复杂的池化策略,但简单的均值池化效果最佳(F1 达 0.75),且观察到人类文本通常比机器生成文本更长这一显著特征。
该论文通过对比实验表明,在阿拉伯语医疗文本的 82 类细粒度分类任务中,经过混合池化和正则化策略微调的双向编码器(如 AraBERTv2)在捕捉精确语义边界方面显著优于基于因果解码的大语言模型。
该论文提出了个性化组相对策略优化(P-GRPO)框架,通过将优势估计与当前批次统计解耦并基于特定偏好群体的奖励历史进行归一化,有效解决了标准 GRPO 在异质偏好对齐中因假设样本可交换而导致的偏差问题,从而实现了对多样化用户偏好的更快速收敛和更精准对齐。
该论文通过系统梳理现有文献与法规,揭示了"AI 模型”与"AI 系统”定义模糊导致的监管义务分配难题,并提出了基于参数架构与组件集成的清晰概念及操作性定义,旨在解决 AI 价值链中责任界定的边界问题。
本文提出了 LWM-Temporal,这是一种面向无线信道时空特性的任务无关基础模型,它通过引入符合物理传播规律的稀疏时空注意力机制(SSTA)和基于物理信息的自监督预训练策略,显著降低了计算复杂度并学习到了可迁移的通用信道表征,从而在多种移动性场景下的信道预测任务中实现了优于基线的性能。
本文提出了 HTM-EAR,一种结合 HNSW 工作记忆与归档存储的分层记忆系统,通过重要性感知淘汰机制和混合路由策略,在长周期运行且上下文受限的饱和场景下,有效平衡了关键信息保留与陈旧记忆遗忘,显著优于传统 LRU 等基线方法。
Tureis 是一种面向智能家居边缘部署的自监督 Transformer 统一方法,它通过掩码重建机制和迭代隔离策略,在无需标签的情况下实现了对多故障、多住户场景下异构传感器故障的毫秒级检测与细粒度定位。
该论文在 NetSecGame 环境中评估了自主网络攻击代理在目标 IP 地址重分配场景下的泛化能力,发现尽管提示驱动的预训练大语言模型在未见地址空间下取得了最高成功率,但传统元学习代理仅表现出部分迁移能力,且所有方法均面临推理成本、可解释性或执行稳定性等方面的显著权衡。
该研究通过大规模对照实验发现,评估格式(如多项选择与开放式回答)对语言模型安全分数的影响远大于脚手架架构本身,且模型与脚手架之间存在显著的交互效应,导致无法建立通用的安全排名,因此必须针对特定模型和配置进行独立测试。
本文提出了一种基于通道门控调制的参数高效持续学习框架,通过冻结预训练骨干网络并仅学习对角缩放因子,在无需数据回放的情况下有效平衡了人类活动识别中的稳定性与可塑性,显著降低了灾难性遗忘并提升了模型在连续新主体任务上的最终准确率。