cs.DB 篇论文 | Gist.Science

Numerical benchmark for damage identification in Structural Health Monitoring

本文针对结构健康监测领域数据稀缺的挑战，提出并开源了一个包含环境变异、损伤、噪声及传感器故障等真实场景模拟数据的数值基准，旨在为验证新型数据驱动及混合方法提供可复现、高质量的资源。

Francesca Marafini, Giacomo Zini, Alberto Barontini, Nuno Mendes, Alice Cicirello, Michele Betti, Gianni BartoliFri, 13 Ma⚡ eess

The Case for Cardinality Lower Bounds

本文针对数据库优化器长期存在的严重低估问题，提出了首个基于轻量级统计信息的可证明连接大小下界理论框架 xBound，通过在 Microsoft Fabric 数据仓库中修正低估并显著提升查询性能，论证了建立下界保障对生产系统的紧迫性与巨大价值。

Mihail Stoian, Tiemo Bang, Hangdong Zhao + 3 more2026-03-06🔢 math

Mapping a Decade of Avian Influenza Research (2014-2023): A Scientometric Analysis from Web of Science

该研究基于 Web of Science 数据库对 2014 至 2023 年禽流感文献进行科学计量分析，揭示了全球发文量稳步增长、中美机构主导产出、核心期刊影响力显著以及国际合作日益紧密的研究格局。

Muneer Ahmad, Undie Felicia Nkatv, Amrita Sharma + 3 more2026-03-06💻 cs

V3DB: Audit-on-Demand Zero-Knowledge Proofs for Verifiable Vector Search over Committed Snapshots

本文提出了 V3DB，一种支持审计的零知识证明向量搜索服务，它通过结合多集相等性检查与轻量级边界条件，在不泄露数据的前提下，为不可信提供商执行的近似最近邻检索生成高效且可验证的正确性证明。

Zipeng Qiu, Wenjie Qu, Jiaheng Zhang + 1 more2026-03-06💻 cs

stratum: A System Infrastructure for Massive Agent-Centric ML Workloads

本文提出了 Stratum，一种旨在解决大语言模型驱动的代理式机器学习流水线搜索中现有 Python 生态性能瓶颈的新型系统基础设施，它通过将流水线执行与规划推理解耦、编译优化执行图并支持异构后端（包括 Rust 运行时），实现了高达 16.6 倍的加速。

Arnab Phani, Elias Strauss, Sebastian Schelter2026-03-06💻 cs

An LLM-Guided Query-Aware Inference System for GNN Models on Large Knowledge Graphs

本文提出了 KG-WISE，一种由大语言模型引导的查询感知推理系统，它通过将图神经网络模型分解为细粒度组件并根据查询动态加载相关部分，在大规模知识图谱上实现了比现有系统快 28 倍、内存占用降低 98% 的高效推理。

Waleed Afandi, Hussein Abdallah, Ashraf Aboulnaga + 1 more2026-03-06💻 cs

Generalizing Fair Top- $k$ Selection: An Integrative Approach

本文针对多保护组下的公平 Top- $k$ 选择问题，揭示了现有假设下的计算不可行性并提出了针对小规模 $k$ 的高效算法，同时引入效用损失作为新的差异度量以增强评分函数的稳定性，最终通过工程权衡在真实数据集上实现了优异性能。

Guangya Cai2026-03-06💻 cs

CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

本文提出了名为 CONE 的混合 Transformer 预训练模型，通过一种新颖的复合嵌入构建算法，将数值、范围、高斯分布及其单位和属性名称整合为保留距离的嵌入向量，从而在多个领域的大规模数据集上显著提升了模型的数值推理能力。

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov2026-03-06💻 cs

Towards a B+-tree with Fluctuation-Free Performance

本文提出了 FFBtree 算法，通过引入安全与关键节点概念并实施关键节点预分裂策略，有效消除了 B+-树插入操作中的分裂传播现象，从而实现了无性能波动的稳定 I/O 表现。

Lu Xing, Walid G. Aref2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

该论文提出了名为 CSV（聚类 - 采样 - 投票）的新框架，通过语义聚类、子集采样及投票策略，将大语言模型语义过滤的调用复杂度从线性降低至次线性，在显著减少调用次数和成本的同时保持了与现有方法相当的准确率。

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Deterministic Preprocessing and Interpretable Fuzzy Banding for Cost-per-Student Reporting from Extracted Records

该论文介绍了一种名为 `cad_processor.py` 的确定性预处理工作流，它通过处理临时学术数据库导出文件来计算生均成本，并利用基于年度极值与中位数的模糊分带法将成本划分为低、中、高三档，从而为预算与治理决策提供可复现、可审计且具备可解释性的数据支持。

Shane Lee, Stella Ng2026-03-06🤖 cs.AI

FluxSieve: Unifying Streaming and Analytical Data Planes for Scalable Cloud Observability

本文提出了 FluxSieve 架构，通过在数据摄入路径中嵌入轻量级流内预计算与过滤层，统一了流式与分析数据平面，从而在几乎不增加存储和计算开销的前提下，显著提升了大规模云可观测性平台在高并发场景下的查询性能。

Adriano Vogel, Sören Henning, Otmar Ertl2026-03-06💻 cs

RESYSTANCE: Unleashing Hidden Performance of Compaction in LSM-trees via eBPF

本文提出了名为 RESYSTANCE 的系统，通过利用 eBPF 和 io_uring 技术将 LSM 树数据库中的后台压缩任务直接卸载至内核执行，从而消除了系统调用开销，显著提升了写入密集型工作负载下的吞吐量并降低了延迟。

Hongsu Byun, Seungjae Lee, Honghyeon Yoo + 2 more2026-03-06💻 cs

CRISP: Correlation-Resilient Indexing via Subspace Partitioning

CRISP 是一种专为超高维空间设计的近似最近邻搜索框架，它通过轻量级的自适应方差重分布策略、缓存一致的 CSR 索引结构以及兼顾理论召回率与低延迟的双模查询引擎，在降低构建成本和内存占用的同时实现了领先的查询吞吐量。

Dimitris Dimitropoulos, Achilleas Michalopoulos, Dimitrios Tsitsigkos + 1 more2026-03-06💻 cs

Bala-Join: An Adaptive Hash Join for Balancing Communication and Computation in Geo-Distributed SQL Databases

本文针对地理分布式 SQL 数据库在广域网环境下处理倾斜数据时分布式哈希连接性能下降的问题，提出了一种名为 Bala-Join 的自适应算法，通过结合平衡分区与部分复制（BPPR）策略、分布式在线倾斜键检测器以及低开销的异步拉取同步机制（ASAP），有效平衡了通信与计算负载，从而将吞吐量提升了 25% 至 61%。

Wenlong Song, Hui Li, Bingying Zhai + 5 more2026-03-06💻 cs

O^3-LSM: Maximizing Disaggregated LSM Write Performance via Three-Layer Offloading

本文提出了 O³-LSM 架构，通过利用共享分离内存实现内存表卸载、协同刷写卸载及分片级优化等三层卸载机制，有效解决了现有分离式 LSM 存储中内存受限和刷写缓慢的问题，从而显著提升了写入性能与查询效率。

Qi Lin, Gangqi Huang, Te Guo + 5 more2026-03-06💻 cs

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

该论文提出了 DEBISS 语料库，这是一个包含口语化、个人化及半结构化辩论数据的集合，并提供了语音转写、说话人分离、论点挖掘及辩论者质量评估等丰富的自然语言处理任务标注，以解决现有辩论语料稀缺且难以涵盖多样辩论形式的问题。

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

TigerVector: Supporting Vector Search in Graph Databases for Advanced RAGs

本文介绍了 TigerVector，这是一个集成于 TigerGraph 原生图数据库中的系统，通过扩展顶点属性类型、构建 MPP 向量索引框架以及增强 GSQL 查询语言，实现了向量搜索与图查询的高效融合，从而显著提升了混合搜索能力、可扩展性及性能。

Shige Liu, Zhifang Zeng, Li Chen + 6 more2026-03-05💻 cs

LQRS: Learned Query Re-optimization Framework for Spark SQL

本文提出了 LQRS 框架，通过结合课程强化学习策略与 Spark SQL 的插件式扩展，利用运行时观测数据实现查询执行前与执行中的动态重优化，从而将端到端执行时间最多降低了 90%。

Jiahao He, Yutao Cui, Cuiping Li + 3 more2026-03-05💻 cs

SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification

本文提出了名为 SpotIt 的新评估流程，利用形式化等价验证引擎主动搜索能区分生成查询与真实答案的数据库，以克服现有基于测试的 Text-to-SQL 评估方法因偶然匹配而高估模型性能的局限性。

Rocky Klopfenstein, Yang He, Andrew Tremante + 3 more2026-03-05🤖 cs.AI

cs.DB