cs.DB 篇论文 | Gist.Science

Fine-Grained Table Retrieval Through the Lens of Complex Queries

本文提出了一种名为 DCTR 的细粒度表格检索机制，通过细粒度类型查询分解和全局连通性感知，有效解决了开放域复杂查询场景下关系数据库问答中的检索挑战，并在行业基准测试中展现了其针对高复合查询和密集连接数据库的鲁棒性。

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon HulsebosTue, 10 Ma💬 cs.CL

Novel Table Search [Technical Report]

该论文针对数据湖中查询结果冗余问题，正式定义了新颖表搜索（NTS）任务，提出了基于惩罚机制的高效近似算法 ANTs 以最大化句法新颖性，并通过实验证明其在捕捉新颖性和执行效率上均优于现有方法。

Besat Kassaie, Renée J. MillerTue, 10 Ma💻 cs

Sketch-Oriented Databases

该论文提出了基于有限极限草图的“草图导向数据库”范畴框架，将图数据库范式统一建模为集合值模型，并通过局部化器实现路径的惰性计算，同时引入“停顿草图”以支持模块化组合与可扩展模型增长。

Dominique Duval, Rachid EchahedTue, 10 Ma💻 cs

LLM-FK: Multi-Agent LLM Reasoning for Foreign Key Detection in Large-Scale Complex Databases

本文提出了 LLM-FK，这是首个用于大规模复杂数据库的外键检测全自动多智能体框架，它通过协调四个专用智能体有效解决了搜索空间爆炸、上下文模糊及局部预测不一致等挑战，在多个基准测试中显著提升了检测精度并大幅缩减了候选搜索空间。

Zijian Tang, Ying Zhang, Sibo Cai, Ruoxuan WangTue, 10 Ma💻 cs

Tursio for Credit Unions: Powering Structured Data Search with Automated Context Graph

本文介绍了 Tursio，这是一个专为信用合作社等受监管行业设计的本地化安全平台，它通过自动构建语义知识图谱并将大语言模型集成到查询处理全流程中，实现了利用自然语言对复杂结构化数据库进行合规且精准的搜索。

Shivani Tripathi, Ravi Shetye, Shi Qiao, Alekh JindalTue, 10 Ma💻 cs

Enhancing OLAP Resilience at LinkedIn

本文介绍了 LinkedIn 为 Apache Pinot 开发的一套综合弹性机制，包括查询工作负载隔离、无影响重平衡、维护区感知和自适应服务器选择，旨在确保大规模实时 OLAP 系统在故障、负载激增和集群变更等场景下仍能维持严格的 SLA 和高可用性。

Praveen Chaganlal, Jia Guo, Vivek Vaidyanathan, Dino Occhialini, Sonam Mandal, Subbu Subramaniam, Siddharth Teotia, Tianqi Li, Xiaxuan Gao, Florence ZhangTue, 10 Ma💻 cs

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

本文提出了 Dial，一种基于知识的地域特定 NL2SQL 系统，通过引入方言感知逻辑查询规划、分层意图知识基以及执行驱动的调试验证循环，有效解决了现有方法在处理异构数据库方言时语义正确性与可执行性不足的问题，并在新构建的 DS-NL2SQL 基准测试中显著提升了翻译准确率与方言特性覆盖率。

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

本文提出了一种名为 GP-Tree 的新型内存空间索引，它通过将空间对象的细粒度网格单元编码组织为前缀树结构，并辅以剪枝等优化策略，有效克服了传统索引在处理复杂空间对象时的精度与性能瓶颈，在多种空间查询任务中实现了比传统索引高出一个数量级的效率提升。

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

本文提出了一种名为“结构化 gossip"的 DNS 方案，通过利用 DHT 手指表实现被动稳定化，在无需全局协调的情况下，将消息复杂度从 $O(n)$ 降低至 $O(n/\log n)$ ，从而有效解决了移动自组织网络和边缘计算中网络分区带来的分布式名称解析挑战。

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

本文针对关系数据库中实体分类任务存在的类别不平衡问题，提出了关系中心的小样本合成过采样图神经网络模型 Rel-MOSS，通过设计关系门控控制器和关系引导合成器来增强少数类信息表达与一致性，显著提升了模型在平衡准确率和几何平均数上的性能。

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi ZhangTue, 10 Ma🤖 cs.LG

Decomposition-Driven Multi-Table Retrieval and Reasoning for Numerical Question Answering

本文提出了 DMRAL 框架，通过构建表关系图、设计表对齐问题分解器与覆盖感知检索器以及子问题引导推理器，有效解决了大规模表格集合中数值多表问答面临的复杂关系支持不足、检索低效及答案生成不准确等挑战，显著提升了检索与回答准确率。

Feng Luo, Hai Lan, Hui Luo, Zhifeng Bao, Xiaoli Wang, J. Shane Culpepper, Shazia SadiqTue, 10 Ma💻 cs

Samyama: A Unified Graph-Vector Database with In-Database Optimization, Agentic Enrichment, and Hardware Acceleration

本文介绍了 Samyama，一个用 Rust 构建的高性能统一图 - 向量数据库，它通过整合内建优化求解器、代理增强功能及硬件加速技术，在单一引擎中实现了图分析、向量检索与元启发式优化的无缝融合，并在消费级硬件上展现出卓越的吞吐量和低延迟性能。

Madhulatha Mandarapu, Sandeep KunkunuruTue, 10 Ma💻 cs

CEMR: An Effective Subgraph Matching Algorithm with Redundant Extension Elimination

本文提出了一种名为 CEMR 的新型子图匹配算法，通过引入基于黑白顶点编码的公共扩展合并、利用公共扩展缓冲区的复用机制以及两种剪枝技术，有效消除了冗余扩展并显著提升了在大规模真实图数据上的匹配效率。

Linglin Yang, Xunbin Su, Lei Zou, Xiangyang Gou, Yinnian LinTue, 10 Ma💻 cs

PRIME: Efficient Algorithm for Token Graph Routing Problem

本文提出了名为 PRIME 的高效两阶段迭代算法，通过剪枝搜索与自适应符号梯度优化，解决了区块链代币交换中因凹函数权重导致的图路由难题，在以太坊真实数据上显著优于 Uniswap 等现有方案，实现了更优的执行价格与计算效率。

Haotian Xu, Yuqing Zhu, Yuming Huang, Jing TangTue, 10 Ma💻 cs

LLM-Driven Online Aggregation for Unstructured Text Analytics

本文提出了 OLLA 框架，通过结合流式文本转换、在线聚合及语义分层采样技术，显著加速了大语言模型在关系查询中的语义处理，使其仅需不到 4% 的全量数据时间即可达到 1% 的误差精度。

Chao Hui, Weizheng Lu, Yanjie Gao, Lingfeng Xiong, Yunhai Wang, Yueguo ChenTue, 10 Ma💻 cs

Direct Access for Conjunctive Queries with Negations

本文通过将关系数据表示为特定电路类，将带否定原子的符号连接查询（signed conjunctive queries）的直访（direct access）问题推广至可解范畴，不仅恢复了正连接查询的已知可解类，还证明了 $\beta$ -无环及有界嵌套集宽度的负连接查询具有可解的直访能力。

Florent Capelli, Nofar Carmeli, Oliver Irwin, Sylvain SalvatiThu, 12 Ma💻 cs

Categorical Calculus and Algebra for Multi-Model Data

本文通过扩展关系演算与关系代数，提出了用于多模型数据库查询的范畴演算与范畴代数两种形式化语言，证明了它们的等价性，并给出了优化规则及表达能力和计算复杂度的分析。

Jiaheng Lu (University of Helsinki)Thu, 12 Ma💻 cs

K-Join: Combining Vertex Covers for Parallel Joins

本文提出了一种名为 K-Join 的并行连接算法，该算法通过线性组合多个顶点覆盖来优化超立方体份额的选择，从而利用新定义的“简化准顶点覆盖”度量实现了优于或等同于现有最先进算法的负载性能。

Simon Frisk, Austen Fan, Paraschos KoutrisThu, 12 Ma💻 cs

HiFIVE: High-Fidelity Vector-Tile Reduction for Interactive Map Exploration

本文提出了 HiFIVE 框架，通过形式化可视化感知瓦片约简问题并设计基于信息论与空间准则的两阶段筛选稀疏化算法，实现了在 TB 级规模下兼顾高保真度与交互性能的可扩展客户端地理空间可视化。

Tarlan Bahadori, Ahmed EldawyThu, 12 Ma💻 cs

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

本文提出了首个专门针对时空时间序列预测的数据集蒸馏方法 STemDist，通过平衡压缩时空维度并结合粗粒度聚类与细粒度子集蒸馏技术，在显著降低训练时间和内存消耗的同时，实现了比现有方法更低的预测误差。

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung ShinThu, 12 Ma🤖 cs.LG