cs.DB 篇论文 | Gist.Science

本文提出了名为 PANDAExpress 的新算法，通过引入基于数据偏斜统计的动态超平面划分方案及新的概率不等式，成功消除了原 PANDA 算法中导致其实用性受限的多项式对数因子，从而在保持通用性的同时实现了与专用算法相匹敌的最优运行时间。

本文针对大规模动态图中 Leiden 社区检测在频繁更新下效率低下的问题，提出了一种名为 HIT-Leiden 的新型分层增量算法，通过限制受影响顶点范围，在保持社区质量的同时实现了比现有方案高出五个数量级的加速，并成功满足生产环境的高延迟要求。

该论文通过形式化模型诱导的局部性（如 KNN 邻居或树节点），提出了利用支持集映射和最优子集复用的 LSMR 算法及其无偏蒙特卡洛变体 LSMR-A，从而将数据估值从指数级全局计算转化为受控于独立影响子集数量的结构化问题，在显著降低重训练开销的同时保持了高估值精度。

本文提出了 ErrorLLM 框架，通过显式建模包含结构化特征与专用错误标记的文本到 SQL 错误，有效解决了现有自修正范式在检测隐性错误和避免幻觉方面的局限，从而显著提升了 SQL 生成的修正效果。

本文探讨了将人工智能直接集成到数据库引擎（AIxDB）以应对数据导出开销、漂移及安全风险等挑战，重点分析了联合查询处理、执行调度、异构硬件优化及事务安全等关键问题，并提出了相应的设计方案与初步性能结果。

该论文提出了首个完全基于合成数据预训练的 relational 基础模型 RDB-PFN，通过设计关系先验生成器构建海量合成任务，使模型能够仅凭上下文学习在少量样本下高效适应各类真实世界关系数据库预测任务，并显著优于现有基线方法。

本文介绍了 SpotIt+，一种通过结合规则挖掘与大模型验证来提取数据库约束的开源工具，旨在利用有界等价验证生成更具现实意义的差异数据库，从而更有效地评估 Text-to-SQL 系统的准确性。