Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering
该论文提出了一种名为“元自适应提示蒸馏”的方法,通过从任务相关的视觉特征中提取并蒸馏固定软提示,利用注意力映射模块在测试时进行元学习适配,从而在少样本视觉问答任务中显著提升了大型多模态模型的性能,克服了传统上下文学习在增加示例数量时性能不再单调提升的瓶颈。
1714 篇论文
该论文提出了一种名为“元自适应提示蒸馏”的方法,通过从任务相关的视觉特征中提取并蒸馏固定软提示,利用注意力映射模块在测试时进行元学习适配,从而在少样本视觉问答任务中显著提升了大型多模态模型的性能,克服了传统上下文学习在增加示例数量时性能不再单调提升的瓶颈。
本文提出了一种名为 VINCIE 的模型,通过从视频中学习并采用块因果扩散变换器架构,实现了无需依赖专家模型或特定任务流程的强大多轮上下文图像编辑能力,并在多项基准测试中取得了最先进成果。
本文提出了名为 FAME 的公平性感知多模态嵌入框架,通过根据各模态对公平性的贡献进行显式加权并结合误差分布差异指数(EDDI)优化损失函数,在提升电子健康记录预测性能的同时有效减少了患者亚群间的偏见。
本文提出了一种名为 LA-CDM 的假设驱动不确定性感知语言智能体,通过结合监督学习与强化学习的混合训练范式,在模拟真实临床交互迭代过程中实现了针对腹部疾病的高效诊断与决策。
本文提出了更鲁棒的文本转语音分布评分指标 TTSDS2,并发布了包含 1.1 万条主观评分的多语言数据集、防泄漏测试集构建流程及持续更新的基准,以解决现有评估方法难以区分高质量合成语音与真实语音的问题。
本文介绍了基于 Llama-3.1 模型微调的 20 个专用大语言模型"FeynTune",它们通过在理论高能物理领域(如 hep-th、hep-ph 和 gr-qc)的 arXiv 摘要上进行训练,在相关任务中超越了基座模型及主流商业大语言模型。
该研究通过实验发现,尽管 ChatGPT 能短期提升人类创造力,但一旦撤除其辅助,人类表现会回落至基线水平,且长期使用会导致创意内容日益同质化,从而对"AI 能增强人类创造力”的普遍观点提出了挑战。
本文针对端到端对话人工智能模型因训练数据可能产生有害行为的问题,基于价值敏感设计原则提出了发布决策框架,并配套提供了一套工具以辅助研究人员更明智地决定模型的训练与发布。
本文介绍了一种名为 BERT 的新型语言表示模型,它通过在所有层中联合左右上下文对无标签文本进行预训练,仅需添加一个输出层即可微调出在多种自然语言处理任务上达到当时最先进水平的模型。
该论文提出了一种完全基于注意力机制、摒弃循环和卷积结构的新型网络架构 Transformer,其在机器翻译任务中不仅显著提升了翻译质量,还大幅降低了训练成本并实现了更高的并行化效率。
该论文提出了两种用于从大规模语料库中高效计算连续词向量的新模型架构,在显著降低计算成本的同时,于词相似性任务中实现了优于以往神经网络的精度并达到了当时的最先进水平。