AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering
本文介绍了名为 AutoViVQA 的大规模自动构建的越南语视觉问答数据集,旨在利用预训练 Transformer 架构推动越南语多模态学习研究,并系统评估了多种自动评价指标在跨语言场景下的表现。
2393 篇论文
本文介绍了名为 AutoViVQA 的大规模自动构建的越南语视觉问答数据集,旨在利用预训练 Transformer 架构推动越南语多模态学习研究,并系统评估了多种自动评价指标在跨语言场景下的表现。
本文提出了 ESAinsTOD,一种统一的全参数微调端到端指令微调框架,通过引入指令对齐与模式对齐机制,显著提升了任务型对话模型在跨数据集基准测试、低资源零样本泛化及抗噪鲁棒性方面的性能。
该论文提出了 ActiveUltraFeedback,一种利用主动学习动态筛选高信息量样本以生成偏好数据的模块化流程,通过引入 DRTS 和 DeltaUCB 等新颖方法,仅用六分之一的标注数据即可实现与静态基线相当甚至更优的大语言模型对齐效果。
本文提出了名为 Mousse 的新型优化器,它通过结合 Shampoo 的曲率感知预条件技术与 Muon 的谱优化方法,在黎曼流形上实现了各向异性的信任区域约束,从而在几乎不增加计算开销的情况下显著提升了语言模型的训练效率。
该论文提出了 OOD-MMSafe 基准和 CASPO 框架,旨在将多模态大语言模型的安全对齐从关注恶意意图转向识别情境依赖的潜在后果,从而显著降低模型在因果推理中的失败率。
该论文提出了 MUGEN 基准以评估大音频语言模型的多音频理解能力,揭示了其在并发输入增加时性能显著下降的瓶颈,并发现结合音频排列自洽性与思维链策略可显著提升模型表现。
该论文提出了一种名为 CVS 的免训练数据选择方法,通过利用冻结的视觉语言大模型衡量“问题”引入前后答案有效性的差异,精准筛选出真正需要跨模态推理的高质量样本,从而在显著降低计算成本的同时提升了模型性能。
本文提出了 AutoAgent 框架,通过融合进化认知、实时情境决策与弹性记忆编排三大核心组件,实现了智能体在动态环境中无需外部重训练即可持续从经验中学习并优化自适应决策能力。
该论文提出了名为 RbtAct 的新方法,通过利用同行评审中的反驳(rebuttal)作为隐式监督信号,并构建 RMR-75K 数据集,训练大语言模型生成更具可操作性和具体性的论文评审反馈。
本文提出了 EXPLORE-Bench 基准,旨在评估多模态大语言模型在从第一人称视角预测长序列动作后的最终场景方面的能力,揭示了当前模型在长程推理上与人类存在的显著差距,并验证了通过逐步推理分解任务虽能提升性能但会带来计算开销。
该论文提出了一种名为 Ego 的高效个性化方法,通过利用模型内部注意力机制提取代表目标概念的视觉令牌作为记忆,从而在不依赖额外训练阶段或外部模块的情况下,显著提升了大型视觉语言模型在单概念、多概念及视频场景下的个性化能力。
受生物空间认知机制启发,World2Mind 提出了一种无需训练的认知工具包,通过构建基于椭圆参数建模的 allocentric 空间树(AST)及三阶段推理链,使基础模型能够利用结构化空间知识显著提升三维空间推理能力,甚至让纯文本模型达到接近多模态模型的性能。
本文研究了基于模拟的推断(SBI)在中微子相互作用模型参数估计中的适用性,发现该方法在复现 MicroBooNE 合作组调优参数方面表现良好,且在使用原始实验数据时能获得比传统方法更优的拟合效果,同时还能有效近似 NuWro 等替代模拟。
该论文通过提出“不透明串行深度”这一形式化概念,量化了大语言模型在不依赖思维链等可解释中间步骤的情况下所能执行的最大计算长度,并提供了计算该指标上限的自动化工具及针对 Gemma 3 等模型的具体分析结果。
本文提出了一种结合长短期记忆网络(LSTM)与量子电路 Born 机器(QCBM)的混合量子 - 经典框架,通过利用 QCBM 作为高质量先验分布来增强 LSTM 的特征提取能力,从而在上证综指和沪深 300 指数的高频数据上显著提升了金融波动率预测的精度。
该论文提出了一种名为 ACP-SL 的自适应通道剪枝方案,通过设计标签感知通道重要性评分模块来识别并剪除不重要的通道,从而压缩分裂学习中的中间特征传输数据,在降低通信开销的同时提升了测试准确率并减少了训练轮次。
本文介绍了 MITRA,一种专为大型物理实验(如 CMS)设计的本地化检索增强生成(RAG)原型系统,它通过自动化文档提取、两阶段向量数据库架构及完全本地部署的模型,有效解决了海量内部文档的检索难题并确保了数据隐私。
该论文提出了一种受多重网格启发、可无缝集成到现有模型中的轻量级“平滑伪投影器”,通过抑制与标签无关的输入方向来修正 Transformer 模型的隐藏表示,从而在文本分类等任务中显著提升了训练动态和鲁棒性。
该论文针对未来多智能体协作场景,正式定义了多视角长时序第一人称视频理解问题,提出了包含 1.7 千个问题的 MA-EgoQA 基准数据集及共享记忆动态检索基线模型 EgoMAS,以评估并推动系统在多智能体系统级理解能力上的发展。
本文提出了名为 SCENEBench 的音频理解基准,旨在通过评估背景音理解、噪声定位、跨语言语音理解及发声特征识别等四大真实世界任务,填补大音频语言模型在非语音内容理解方面的研究空白,并揭示了当前模型在这些任务中存在的显著性能差距。