Modeling Concurrency Control as a Learnable Function
本文提出了 NeurCC,一种基于贝叶斯优化和图归约搜索算法的新型可学习并发控制机制,它通过高效映射数据库状态到控制动作的查找表,在多样化及动态变化的工作负载下实现了比现有最先进算法更高的事务吞吐量和优化速度。
84 篇论文
本文提出了 NeurCC,一种基于贝叶斯优化和图归约搜索算法的新型可学习并发控制机制,它通过高效映射数据库状态到控制动作的查找表,在多样化及动态变化的工作负载下实现了比现有最先进算法更高的事务吞吐量和优化速度。
本文介绍了 OptBench,这是一个基于 DuckDB 的交互式工作平台,旨在通过统一的后端和可视化工具,帮助研究人员和从业者透明、公平地构建、基准测试及对比针对混合 SQL 与 AI/ML 查询的查询优化器。
本文提出了名为"EinSum"的张量 - 关系计算新范式,通过自动将爱因斯坦求和符号重写为混合形式,实现了在关系系统中高效管理大规模稀疏数据的同时,利用高性能数值内核执行核心数学运算。
本文提出了 Nezha 系统,通过创新性地结合键值分离架构与 Raft 共识协议,优化了持久化策略并引入分级垃圾回收机制,有效解决了传统一致存储中因重叠 I/O 操作导致的性能瓶颈,显著提升了读写吞吐量。
本文提出了 DataFactory 框架,通过引入包含数据领导、数据库和知识图谱团队的协作多智能体架构,结合自动化数据转知识图谱映射与自然语言协商机制,有效解决了现有大模型在表格问答中面临的上下文限制、幻觉及复杂推理难题,并在多个基准测试中显著提升了准确率。
本文通过工业基准和真实企业负载评估了基于大语言模型(LLM)的索引调优在微软数据库调优顾问(DTA)背景下的实际效果,发现尽管 LLM 因性能波动大和验证成本高而难以直接替代 DTA,但其能识别出显著优于 DTA 的配置并捕捉人类直觉洞察,可作为互补技术或启发 DTA 改进的潜力方向。
这篇发表于 ICDE 2026 的教程论文全面综述了人工智能与向量搜索相互促进的“良性循环”,深入探讨了 AI 如何优化向量搜索流程、向量搜索如何通过检索增强生成(RAG)赋能大语言模型,以及两者端到端协同优化的策略、挑战与未来机遇。
本文提出了 GeoBenchr,这是一个开源的应用导向基准测试套件,旨在通过涵盖多样化数据集、查询类型及真实场景工作负载,对时空数据库平台进行全面的性能评估与比较。
该论文通过证明由有界推导深度规则集生成的通用模型若包含任意大的竞赛图则必然蕴含自环查询,从而排除了此类结构作为“有界推导深度蕴含有限可控性”猜想反例的可能性,为该猜想的研究迈出了重要一步。
该论文提出了一种衡量排名对物品数值微小变化敏感度的“局部稳定性”新指标,并设计了具有理论保证的采样算法来近似计算该指标及检测密集区域,同时通过实验验证了其在提升决策质量方面的有效性。
本文提出了一种神经符号生成代理,通过链式思维推理和量纲分析自主识别并修正科学文献中的隐含物理假设(如将非排水条件误判为排水条件),从而在热压致裂等模拟中避免物理幻觉,实现了对物理机制的自主补全与验证。
本文通过构建统一框架,系统比较了旨在支持 GQL 标准修订的 PG-Keys 语言与图函数依赖(GFD)、图生成依赖(GGD)的表达能力,确立了包含严格分层关系的完整表达力层级,并精确定位了 PG-Keys 在现有属性图约束形式化方法中的独特优势。
该论文提出了一套跨数据库与 SSD 层的“非原地写入”优化方案,通过重新设计 LeanStore 存储引擎,显著降低了写放大并提升了 OLTP 工作负载下的吞吐量与 SSD 寿命,同时兼容 ZNS 等新型 SSD 接口。
针对现有协同学习基准忽视真实世界数据孤岛中表连接与对齐等端到端数据管理流程的不足,本文构建了基于 10 万个真实关系数据库的 WikiDBGraph 基准套件,以评估并揭示现有方法在复杂异构数据环境下的局限性及改进方向。
本文提出了 MMTU,一个包含 28,000 多个问题和 25 项真实世界任务的大规模基准测试,旨在全面评估大语言模型在专家级表格理解、推理及操作方面的能力,并揭示了当前顶尖模型在此领域仍存在显著不足。
本文提出了名为 TableEG 的框架,该框架利用经过微调的大语言模型和三元组表示法,在多个真实世界数据集上生成高度逼真的表格错误,从而有效弥合了合成数据与真实错误分布之间的差距,并为数据清洗技术的评估建立了稳健的基准。
本文提出了 SDFed 框架,通过允许客户端学习可变长度本地提示并引入子空间细化与散度控制策略,有效解决了联邦提示学习中因数据与资源异构导致的本地 - 全局知识冲突问题,从而在隐私敏感的多方场景中实现了更优的模型性能与鲁棒性。
本文提出了一种名为投影增强图(PAG)的新型近似最近邻搜索框架,通过结合投影技术与图索引,在满足现代 AI 应用六大关键需求的同时,实现了比 HNSW 快达 5 倍的查询性能、快速的索引构建速度以及良好的高维扩展性和在线插入支持。
本文提出了第五图范式(5GNF),这是一种基于特征的元数据规范化框架,通过将重复元数据提取为可复用的特征节点来消除属性图中的冗余并提升语义一致性,且经北风数据集验证在保持性能的同时显著简化了模式结构。
该论文通过构建系统性实验框架,首次全面评估了图稀疏化在大规模图神经网络流水线中的应用,发现其不仅能显著加速训练与推理过程(如在 Products 图上实现 11.7 倍加速),还能在极小精度损失甚至提升模型性能的同时有效缓解数据移动瓶颈。