Image Captioning via Compact Bidirectional Architecture
本文提出了一种紧凑的双向 Transformer 模型,通过紧密耦合左至右和右至左流并采用句子级集成策略,在无需视觉 - 语言预训练的情况下实现了图像描述任务的新兴最先进性能。
1005 篇论文
本文提出了一种紧凑的双向 Transformer 模型,通过紧密耦合左至右和右至左流并采用句子级集成策略,在无需视觉 - 语言预训练的情况下实现了图像描述任务的新兴最先进性能。
本文建立了对应分析(CA)与基于 PMI 的词向量方法之间的形式化联系,提出了 ROOT-CA 和 ROOTROOT-CA 两种变体,并通过实验证明其在多个基准测试中表现略优于传统 PMI 方法且能与 BERT 竞争。
该论文提出了一种将量化和稀疏化统一建模为加性噪声的框架,通过引入基于岭回归的去噪反量化变换来构建明确的梯度路径,从而解决了传统直通估计器在超低精度和稀疏训练中的不稳定性问题,实现了任意精度与稀疏度下的鲁棒训练并取得了最先进的性能。
本文提出了 MKE-Coder 框架,通过整合诊断的多轴知识并利用评分模型筛选临床证据,结合掩码语言建模策略进行验证,有效解决了中文电子病历中 ICD 自动编码面临的文本结构复杂及证据关联不足的挑战,显著提升了编码的准确性与效率。
本文介绍了在 Tutlayt AI 项目下构建的低资源语音平行语料库 LoReSpeech,该方法通过结合协作平台生成的转录短音频(LoReASR)与利用 MFA 工具对齐的长音频(如圣经文本),实现了跨语言语音对齐,旨在推动多语言自动语音识别、直接语音翻译及语言保护技术的发展。
本文提出了 GateLens,一种通过引入关系代数作为自然语言与可执行代码间的形式化中间表示,以解决大型语言模型在复杂表格数据分析中推理与代码生成差距的架构,并在汽车软件发布分析场景中验证了其在准确性、速度及零样本适应性上优于传统链式思维方法的显著优势。
该论文提出了步式引导策略优化(SGPO)框架,通过引入步式评判模型增强组内响应多样性,有效解决了 GRPO 在全部样本错误时无法更新策略的局限性,从而提升了大语言模型在推理任务中的训练效率与性能。
本文提出了名为 MathQ-Verify 的五阶段流水线,通过格式验证、形式化分解、逻辑矛盾检测及目标完整性检查等步骤,有效识别并过滤数学问题中的无效或定义不清情况,从而显著提升了数学数据集的可靠性与模型验证性能。
本文提出了 UltraEdit,这是一种无需训练、主体和记忆的高效终身模型编辑方法,通过单步参数更新和终身归一化策略,在显著降低显存需求的同时实现了超大规模编辑,并构建了包含 200 万编辑对的 UltraEditBench 数据集以验证其卓越性能。
本文提出了名为 ThinkQE 的测试时查询扩展框架,通过基于思维的深度语义探索与结合检索反馈的迭代优化策略,有效解决了现有大模型方法在查询扩展中缺乏多样性和全面性的问题,并在多个基准测试中超越了传统训练密集型方法。
该论文提出了一种名为 ConLID 的有监督对比学习方法,旨在通过学习域不变表示来解决低资源语言在单一领域数据(如《圣经》)上表现不佳的问题,从而在保持高资源语言性能的同时,显著提升了低资源语言在跨域数据上的语言识别准确率。
本文介绍了 OPENXRD,这是一个针对大语言模型和 multimodal 大语言模型在晶体学问答任务中评估其上下文信息整合能力的综合基准框架,通过包含 217 道专家审定 XRD 问题的闭卷与开卷测试,揭示了模型规模、内容质量对知识整合效果的关键影响。
本文提出了 TaoSR1 框架,通过结合思维链监督微调、偏好优化及基于难度的动态采样策略,成功解决了大语言模型在电商搜索相关性任务中面临的推理错误累积、判别幻觉及部署可行性等挑战,显著提升了离线与在线评估表现。
本文提出了名为 AgentCoMa 的新基准,通过混合常识与数学推理任务揭示大语言模型在处理此类组合推理时存在显著的性能瓶颈(准确率下降约 30%),而人类在此类任务中表现优异,且研究通过可解释性分析进一步剖析了模型在此场景下的脆弱性。
该论文首次揭示了“推理诱导的不对齐”(RIM)现象,即推理能力的增强反而会导致模型与人类价值观的偏离,并通过表征分析从注意力机制和神经元激活纠缠的层面阐明了其导致灾难性遗忘的内在机理。
该论文介绍了 SimpleQA Verified,这是一个经过严格筛选和优化的 1000 条提示基准测试,旨在解决 OpenAI 原有基准的噪声与偏差问题,为评估大语言模型的参数化事实性提供了更可靠的工具,其中 Gemini 2.5 Pro 在该测试中取得了 55.6 的 SOTA F1 分数。
该论文提出了 SEER 框架,通过结合 Best-of-N 采样与任务感知自适应过滤来动态压缩思维链(CoT),在显著降低计算延迟和内存开销的同时,有效提升了大型语言模型在软件工程及数学任务中的准确性与鲁棒性。
该论文指出当前大语言模型幻觉检测方法的性能很大程度上源于对问题侧特征的利用(即“基准测试作弊”),并提出了无需人工标注的“近似问题侧效应”(AQE)方法来量化这一现象,揭示了现有方法在真实场景中的泛化能力不足。
本文提出了 VSSFlow,一种基于流匹配的联合学习框架,通过引入解耦条件聚合机制,成功统一了视频到声音和视频文本到语音生成任务,并在端到端联合训练中实现了超越现有专用基线的性能。
本文提出了名为 v-HUB 的视频幽默理解基准,通过包含非语言短视频及环境声音标注的多样化评估任务,揭示了当前多模态大模型在纯视觉幽默理解上的局限性,并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。