cs.DB 篇论文 | Gist.Science

Modeling Concurrency Control as a Learnable Function

本文提出了 NeurCC，一种基于贝叶斯优化和图归约搜索算法的新型可学习并发控制机制，它通过高效映射数据库状态到控制动作的查找表，在多样化及动态变化的工作负载下实现了比现有最先进算法更高的事务吞吐量和优化速度。

Hexiang Pan, Shaofeng Cai, Tien Tuan Anh Dinh, Yuncheng Wu, Yeow Meng Chee, Gang Chen, Beng Chin OoiWed, 11 Ma💻 cs

OptBench: An Interactive Workbench for AI/ML-SQL Co-Optimization[Extended Demonstration Proposal]

本文介绍了 OptBench，这是一个基于 DuckDB 的交互式工作平台，旨在通过统一的后端和可视化工具，帮助研究人员和从业者透明、公平地构建、基准测试及对比针对混合 SQL 与 AI/ML 查询的查询优化器。

Jaykumar Tandel, Douglas Oscarson, Jia ZouWed, 11 Ma💻 cs

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

本文提出了名为"EinSum"的张量 - 关系计算新范式，通过自动将爱因斯坦求和符号重写为混合形式，实现了在关系系统中高效管理大规模稀疏数据的同时，利用高性能数值内核执行核心数学运算。

Yuxin Tang, Zhiyuan Xin, Zhimin Ding, Xinyu Yao, Daniel Bourgeois, Tirthak Patel, Chris JermaineWed, 11 Ma🤖 cs.AI

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

本文提出了 Nezha 系统，通过创新性地结合键值分离架构与 Raft 共识协议，优化了持久化策略并引入分级垃圾回收机制，有效解决了传统一致存储中因重叠 I/O 操作导致的性能瓶颈，显著提升了读写吞吐量。

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

本文提出了 DataFactory 框架，通过引入包含数据领导、数据库和知识图谱团队的协作多智能体架构，结合自动化数据转知识图谱映射与自然语言协商机制，有效解决了现有大模型在表格问答中面临的上下文限制、幻觉及复杂推理难题，并在多个基准测试中显著提升了准确率。

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evaluating the Practical Effectiveness of LLM-Driven Index Tuning with Microsoft Database Tuning Advisor

本文通过工业基准和真实企业负载评估了基于大语言模型（LLM）的索引调优在微软数据库调优顾问（DTA）背景下的实际效果，发现尽管 LLM 因性能波动大和验证成本高而难以直接替代 DTA，但其能识别出显著优于 DTA 的配置并捕捉人类直觉洞察，可作为互补技术或启发 DTA 改进的潜力方向。

Xiaoying Wang, Wentao Wu, Vivek Narasayya, Surajit ChaudhuriWed, 11 Ma💻 cs

The Virtuous Cycle: AI-Powered Vector Search and Vector Search-Augmented AI

这篇发表于 ICDE 2026 的教程论文全面综述了人工智能与向量搜索相互促进的“良性循环”，深入探讨了 AI 如何优化向量搜索流程、向量搜索如何通过检索增强生成（RAG）赋能大语言模型，以及两者端到端协同优化的策略、挑战与未来机遇。

Jiuqi Wei, Quanqing Xu, Chuanhui YangWed, 11 Ma💻 cs

GeoBenchr: An Application-Centric Benchmarking Suite for Spatiotemporal Database Platforms

本文提出了 GeoBenchr，这是一个开源的应用导向基准测试套件，旨在通过涵盖多样化数据集、查询类型及真实场景工作负载，对时空数据库平台进行全面的性能评估与比较。

Tim C. Rese, Nils Japke, Diana Baumann, Natalie Carl, David BermbachWed, 11 Ma💻 cs

No Cliques Allowed: The Next Step Towards BDD/FC Conjecture

该论文通过证明由有界推导深度规则集生成的通用模型若包含任意大的竞赛图则必然蕴含自环查询，从而排除了此类结构作为“有界推导深度蕴含有限可控性”猜想反例的可能性，为该猜想的研究迈出了重要一步。

Lucas Larroque, Piotr Ostropolski-Nalewaja, Michaël ThomazoWed, 11 Ma💻 cs

Local Stability of Rankings

该论文提出了一种衡量排名对物品数值微小变化敏感度的“局部稳定性”新指标，并设计了具有理论保证的采样算法来近似计算该指标及检测密集区域，同时通过实验验证了其在提升决策质量方面的有效性。

Felix S. Campbell, Yuval MoskovitchWed, 11 Ma💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

本文提出了一种神经符号生成代理，通过链式思维推理和量纲分析自主识别并修正科学文献中的隐含物理假设（如将非排水条件误判为排水条件），从而在热压致裂等模拟中避免物理幻觉，实现了对物理机制的自主补全与验证。

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong HuangWed, 11 Ma💻 cs

Expressive Power of Property Graph Constraint Languages

本文通过构建统一框架，系统比较了旨在支持 GQL 标准修订的 PG-Keys 语言与图函数依赖（GFD）、图生成依赖（GGD）的表达能力，确立了包含严格分层关系的完整表达力层级，并精确定位了 PG-Keys 在现有属性图约束形式化方法中的独特优势。

Stefania Dumbrava, Nadime Francis, Victor Marsault, Steven SaillyWed, 11 Ma💻 cs

How to Write to SSDs

该论文提出了一套跨数据库与 SSD 层的“非原地写入”优化方案，通过重新设计 LeanStore 存储引擎，显著降低了写放大并提升了 OLTP 工作负载下的吞吐量与 SSD 寿命，同时兼容 ZNS 等新型 SSD 接口。

Bohyun Lee, Tobias Ziegler, Viktor LeisWed, 11 Ma💻 cs

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

针对现有协同学习基准忽视真实世界数据孤岛中表连接与对齐等端到端数据管理流程的不足，本文构建了基于 10 万个真实关系数据库的 WikiDBGraph 基准套件，以评估并揭示现有方法在复杂异构数据环境下的局限性及改进方向。

Zhaomin Wu, Ziyang Wang, Bingsheng HeTue, 10 Ma🤖 cs.LG

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

本文提出了 MMTU，一个包含 28,000 多个问题和 25 项真实世界任务的大规模基准测试，旨在全面评估大语言模型在专家级表格理解、推理及操作方面的能力，并揭示了当前顶尖模型在此领域仍存在显著不足。

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

本文提出了名为 TableEG 的框架，该框架利用经过微调的大语言模型和三元组表示法，在多个真实世界数据集上生成高度逼真的表格错误，从而有效弥合了合成数据与真实错误分布之间的差距，并为数据清洗技术的评估建立了稳健的基准。

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin TongTue, 10 Ma🤖 cs.LG

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

本文提出了 SDFed 框架，通过允许客户端学习可变长度本地提示并引入子空间细化与散度控制策略，有效解决了联邦提示学习中因数据与资源异构导致的本地 - 全局知识冲突问题，从而在隐私敏感的多方场景中实现了更优的模型性能与鲁棒性。

Yicheng Di, Wei Yuan, Tieke He, Yuan Liu, Hongzhi YinTue, 10 Ma🤖 cs.LG

Approximate Nearest Neighbor Search for Modern AI: A Projection-Augmented Graph Approach

本文提出了一种名为投影增强图（PAG）的新型近似最近邻搜索框架，通过结合投影技术与图索引，在满足现代 AI 应用六大关键需求的同时，实现了比 HNSW 快达 5 倍的查询性能、快速的索引构建速度以及良好的高维扩展性和在线插入支持。

Kejing Lu, Zhenpeng Pan, Jianbin Qin, Yoshiharu Ishikawa, Chuan XiaoTue, 10 Ma🤖 cs.LG

The Fifth Graph Normal Form (5GNF): A Trait-Based Framework for Metadata Normalization in Property Graphs

本文提出了第五图范式（5GNF），这是一种基于特征的元数据规范化框架，通过将重复元数据提取为可复用的特征节点来消除属性图中的冗余并提升语义一致性，且经北风数据集验证在保持性能的同时显著简化了模式结构。

Yahya Sa'd, Vojtech Merunka, Renzo AnglesTue, 10 Ma💻 cs

Not All Neighbors Matter: Understanding the Impact of Graph Sparsification on GNN Pipelines

该论文通过构建系统性实验框架，首次全面评估了图稀疏化在大规模图神经网络流水线中的应用，发现其不仅能显著加速训练与推理过程（如在 Products 图上实现 11.7 倍加速），还能在极小精度损失甚至提升模型性能的同时有效缓解数据移动瓶颈。

Yuhang Song, Naima Abrar Shami, Romaric Duvignau, Vasiliki KalavriTue, 10 Ma🤖 cs.LG