DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

本文提出了 DataFactory 框架,通过引入包含数据领导、数据库和知识图谱团队的协作多智能体架构,结合自动化数据转知识图谱映射与自然语言协商机制,有效解决了现有大模型在表格问答中面临的上下文限制、幻觉及复杂推理难题,并在多个基准测试中显著提升了准确率。

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evaluating the Practical Effectiveness of LLM-Driven Index Tuning with Microsoft Database Tuning Advisor

本文通过工业基准和真实企业负载评估了基于大语言模型(LLM)的索引调优在微软数据库调优顾问(DTA)背景下的实际效果,发现尽管 LLM 因性能波动大和验证成本高而难以直接替代 DTA,但其能识别出显著优于 DTA 的配置并捕捉人类直觉洞察,可作为互补技术或启发 DTA 改进的潜力方向。

Xiaoying Wang, Wentao Wu, Vivek Narasayya, Surajit ChaudhuriWed, 11 Ma💻 cs

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

本文提出了名为 TableEG 的框架,该框架利用经过微调的大语言模型和三元组表示法,在多个真实世界数据集上生成高度逼真的表格错误,从而有效弥合了合成数据与真实错误分布之间的差距,并为数据清洗技术的评估建立了稳健的基准。

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin TongTue, 10 Ma🤖 cs.LG

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

本文提出了 SDFed 框架,通过允许客户端学习可变长度本地提示并引入子空间细化与散度控制策略,有效解决了联邦提示学习中因数据与资源异构导致的本地 - 全局知识冲突问题,从而在隐私敏感的多方场景中实现了更优的模型性能与鲁棒性。

Yicheng Di, Wei Yuan, Tieke He, Yuan Liu, Hongzhi YinTue, 10 Ma🤖 cs.LG

Not All Neighbors Matter: Understanding the Impact of Graph Sparsification on GNN Pipelines

该论文通过构建系统性实验框架,首次全面评估了图稀疏化在大规模图神经网络流水线中的应用,发现其不仅能显著加速训练与推理过程(如在 Products 图上实现 11.7 倍加速),还能在极小精度损失甚至提升模型性能的同时有效缓解数据移动瓶颈。

Yuhang Song, Naima Abrar Shami, Romaric Duvignau, Vasiliki KalavriTue, 10 Ma🤖 cs.LG