MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark
本文提出了 MMTU,一个包含 28,000 多个问题和 25 项真实世界任务的大规模基准测试,旨在全面评估大语言模型在专家级表格理解、推理及操作方面的能力,并揭示了当前顶尖模型在此领域仍存在显著不足。
2356 篇论文
本文提出了 MMTU,一个包含 28,000 多个问题和 25 项真实世界任务的大规模基准测试,旨在全面评估大语言模型在专家级表格理解、推理及操作方面的能力,并揭示了当前顶尖模型在此领域仍存在显著不足。
该论文表明,通过利用大学习率下梯度下降优化产生的瞬态混沌动力学(即处于探索与利用平衡的临界混沌状态),可以显著加速人工神经网络在多种监督学习任务中的训练过程。
本文介绍了 EROICA,这是首个面向大规模模型训练的在线性能故障诊断系统,它通过在线剖析和差异可观测性技术,在几乎不影响生产环境的前提下,实现了对涵盖约 10 万张 GPU 集群中软硬件混合故障的细粒度、全覆盖诊断,并在实际部署中取得了 97.5% 的成功率。
本文提出了 BemaGANv2,一种通过引入 AMP 生成模块和 MED 判别器,并系统评估多种判别器组合策略,以实现高保真、长时程音频生成(如文本转音乐/音频)的先进 GAN 语音合成器。
本文针对现实场景中数据与模型异构的挑战,提出了任务相关性感知的聚合策略及维度不变模块 Co-LoRA,并构建了涵盖 40 个任务的多模态基准,显著提升了个性化联邦学习在异构环境下的性能。
该论文提出了两种高效算法(Slate-GLM-OFU 和 Slate-GLM-TS)来解决具有指数级候选集和逻辑回归奖励的上下文石板多臂老虎机问题,通过局部规划实现低计算复杂度并保证的累积遗憾,且在合成实验与大语言模型提示工程应用中均优于现有基准。
该论文通过揭示锐度感知最小化(SAM)在机器遗忘中因拟合遗忘集而丧失去噪特性的机制,提出了将模型拆分并分别利用 SAM 学习保留信号与锐度最大化消除遗忘信号的“锐度极小极大(Sharp MinMax)”方法,从而在降低保留数据需求的同时显著提升了遗忘效果并增强了模型安全性。
本文提出了基于 Kolmogorov-Arnold 表示定理的 KAEM 模型,通过引入单变量潜在结构实现快速精确推理,并结合重要性采样与退火策略解决了传统生成模型在效率与可解释性之间的权衡问题。
该论文提出了一种名为 GLMask 的半自监督学习方法,通过最小化人工标注并专注于形状与纹理特征,成功将语义分割转化为实例分割,在小麦穗实例分割任务中达到了 98.5% 的 mAP@50 的 SOTA 性能,并在 COCO 数据集上实现了超过 12.6% 的显著提升。
本文针对直接偏好优化(DPO)中数据选择忽视模型演化状态的问题,提出了名为 SamS 的自适应批处理样本调度算法,该算法能根据模型学习反馈动态调整训练样本,从而在不修改核心算法且计算开销极小的情况下显著提升大语言模型的泛化性能。
DemoDiffusion 提出了一种无需特定任务训练或人机配对数据即可实现单样本人类模仿的机器人操作新方法,该方法通过运动学重定向将人类手势转化为粗略轨迹,并利用预训练扩散策略将其修正为符合机器人动作分布的可行轨迹,在 8 项真实世界任务中取得了 83.8% 的平均成功率。
该研究提出了一种受人类视觉发育启发的“发展性视觉饮食”(DVD)课程,通过模拟人类从婴儿期到成年的视觉成熟过程(如视力、对比度和色彩感知的发展),成功引导 AI 模型从依赖纹理特征转向依赖形状信息,从而显著提升了其在形状识别、抗干扰及对抗攻击方面的鲁棒性,实现了更类人且高效的视觉系统。
该论文通过理论推导与实验验证,揭示了在含噪数据下训练物理信息神经网络(PINN)时,若要使经验风险低于噪声方差,网络规模必须满足特定的下界约束,从而证明了单纯增加噪声样本数量无法降低误差。
本文提出了名为 TableEG 的框架,该框架利用经过微调的大语言模型和三元组表示法,在多个真实世界数据集上生成高度逼真的表格错误,从而有效弥合了合成数据与真实错误分布之间的差距,并为数据清洗技术的评估建立了稳健的基准。
本文提出了一种名为 MCULoRA 的鲁棒不完整多模态低秩适应框架,通过模态组合感知低秩适应(MCLA)模块解耦共享信息与模态特性,并利用动态参数微调(DPFT)模块基于表征空间可分性优化训练比例,从而有效解决了多模态情感识别中因模态缺失导致的梯度冲突问题并显著提升了预测性能。
该论文揭示了多模态大语言模型(MLLM)作为验证器时普遍存在的“同意偏差”问题,并提出了一种名为自我 grounded 验证(SGV)的两步生成方法,通过先独立生成行为先验再评估轨迹,显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。
这篇论文作为首份全面综述,系统梳理了流匹配(Flow Matching)的理论基础及其在生物序列建模、分子生成与设计和蛋白质生成等生命科学领域的最新应用进展,并总结了相关数据集、工具及未来发展方向。
该论文提出了一种基于树结构的弱到强泛化方法,通过利用蒙特卡洛树搜索构建包含成功与失败轨迹的层次化表示,在复杂决策环境中有效提升了强模型的推理与决策能力。
本文揭示了恶意审计对象如何利用最优传输等数学策略,从原本不公平的数据分布中构造出既满足公平性指标又看似具有代表性的样本以制造“公平假象”,并提出了基于分布距离统计检验的防御机制来识别此类操纵攻击。
该论文提出了一种动态、自动且系统的红队测试(DAS)框架,通过实时压力测试揭示了医疗大语言模型在静态基准测试中表现优异但在动态鲁棒性、隐私、公平性和幻觉等关键安全维度上存在严重脆弱性的“基准差距”,从而为构建可信赖的医疗 AI 提供了必要的评估基础。