TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning
本文提出了 TableMind++,一种通过引入记忆引导的计划剪枝、基于置信度的动作优化及双重加权轨迹聚合等不确定性感知机制,有效缓解幻觉并显著提升工具增强型表格推理能力的程序化智能体。
1072 篇论文
本文提出了 TableMind++,一种通过引入记忆引导的计划剪枝、基于置信度的动作优化及双重加权轨迹聚合等不确定性感知机制,有效缓解幻觉并显著提升工具增强型表格推理能力的程序化智能体。
本文提出了名为“口音向量(Accent Vector)”的方法,通过微调多语言 TTS 系统并计算任务向量,实现了无需口音训练数据即可对多种语言进行细粒度和可组合的口音控制。
本文介绍了 MAWARITH,一个包含 12,500 个阿拉伯语伊斯兰继承案例的大规模数据集,旨在通过提供逐步推理链和提出 MIR-E 评估指标,解决大语言模型在处理复杂继承法推理时的挑战,并评估了多个模型在该任务上的表现。
该论文提出了一种无需 accented 训练数据的 L2 口音语音生成框架,通过结合多语言 TTS 模型与音系规则,在音素级别实现了对西班牙语和印度口音英语的显式转换,在保持语音质量的同时有效实现了口音迁移。
该论文发布了首个尼泊尔语(Newari)5.39 小时人工转写天城文语音语料库"Nw\=ach\=a Mun\=a",并证明在超低资源自动语音识别任务中,利用地理和语言邻近的尼泊尔语进行迁移学习,能以更少的参数量达到与大规模多语言模型相当的性能。
本文提出了 KCoEvo 框架,通过构建静态与动态 API 知识图谱将代码迁移任务分解为演化路径检索与路径感知代码生成两个协同阶段,利用真实 API 差异自动生成的合成监督数据训练模型,显著提升了大语言模型在应对 API 变更时的迁移准确性、可控性及执行成功率。
本文提出了 StyleBench,这是一个用于从情感、语速、音量和音高四个维度全面评估语音语言模型在对话中说话风格强度控制能力的多轮对话基准。
本文介绍了 KohakuRAG,一种通过四层树状分层索引、LLM 驱动的查询规划与重排序以及集成推理投票机制,在 WattBot 2025 挑战赛中以 0.861 分夺得榜首并实现高精度引用与数值回答的开源检索增强生成框架。
本文介绍了 Megatron Core 中针对混合专家(MoE)模型可扩展训练的系统级协同优化方案,通过整合内存、通信和计算层面的多项创新技术,在 NVIDIA GB300/GB200 集群上实现了 DeepSeek-V3 和 Qwen3 等超大规模模型的高效、生产就绪型训练。
该论文通过构建涵盖多种问题类型和参数规模的自然语言离散优化数据集,评估了包括 Llama-3 系列和 ChatGPT 在内的不同大语言模型及思维链(CoT)方法的性能,发现强模型表现更优但 CoT 并非总是有效,且数据扰动虽能提升简单问题的表现却引入了不稳定性,从而为自动化求解离散优化问题提供了基准评估与实用建议。
本文针对视觉语言模型在空间推理任务中的“空间智能差距”,提出了名为 3ViewSense 的框架,通过引入基于正交视图的“模拟与推理”机制,将自我中心感知与外部参考对齐,从而显著提升了模型在遮挡计数和视角一致性推理等复杂空间任务中的表现。
该论文通过 PCA 白化处理揭示了“聚类一致性”是区分幻觉类型(特别是区分难以分辨的类型 1 和类型 2)的关键几何指标,证明了类型 1 与 2 的不可分性源于模型容量限制而非测量伪影,并指出了在微信号 regime 下提示集敏感性对实验结果的重要影响。
本文介绍了 QuadAI 团队在 SemEval-2026 任务 3 中提出的系统,该系统通过集成学习将结合回归与分类头的混合 RoBERTa 编码器与大语言模型(LLM)相结合,利用预测级堆叠显著提升了多维方面情感分析的性能。
ArcLight 是一种专为多核 CPU 设计的轻量级大语言模型推理架构,通过集成高效的内存管理、线程调度及细粒度张量并行技术,有效解决了跨 NUMA 节点内存访问开销问题,从而显著提升了推理吞吐量。
该论文针对现代代码生成模型的训练瓶颈,提出了包含条件截断掩码等三项创新的 MicroCoder-GRPO 算法,并配套发布了更具挑战性的 MicroCoder-Dataset 和更高效的 MicroCoder-Evaluator,通过大量实验验证了其在 LiveCodeBench v6 上显著的性能提升及 34 项关键训练洞察。
该论文提出了包含自动难度过滤的四阶段数据处理框架,构建了强调新颖性与挑战性的 MicroCoder 数据集,并通过强化学习验证了其在提升代码生成模型解决高难度问题能力方面的显著优势。
该研究通过双指标评估框架,在尼泊尔文化语境下分析了七种大语言模型的社会偏见,发现显式同意偏见与隐式生成偏见存在显著差异且后者受温度参数非线性影响,揭示了当前模型在欠代表文化背景中偏见评估的局限性及去偏策略的紧迫性。
该论文通过构建魁北克保险领域的权威基准 AEPC-QA,评估了 51 个大语言模型在闭卷与检索增强生成(RAG)模式下的表现,揭示了推理能力、RAG 带来的知识增强与上下文干扰效应,以及通用大模型优于领域微调小模型的“专业化悖论”等关键发现,指出尽管模型已接近专家水平,但 RAG 引入的不稳定性仍需严格校准方可实现自主部署。
本文提出了名为 DistillGuard 的评估框架,系统测试了输出扰动、数据投毒和信息节流三类防御策略,发现除移除思维链能显著削弱数学推理能力外,大多数现有输出级防御在防止大语言模型知识蒸馏方面效果有限且高度依赖具体任务。
本文介绍了 AI Steerability 360,这是一个开源的 Python 工具包,旨在通过统一的管道接口和模块化设计,降低大语言模型在输入、结构、状态和输出四个控制维度上进行可控性调整与评估的门槛。