cs.DB articles | Gist.Science

Modeling Concurrency Control as a Learnable Function

Ce papier présente NeurCC, un nouvel algorithme de contrôle de concurrence appris qui, grâce à une fonction optimisée par recherche bayésienne et réduction de graphe, surpasse systématiquement les méthodes de l'état de l'art en termes de débit transactionnel et de rapidité d'adaptation face à des charges de travail variées et dynamiques.

Hexiang Pan, Shaofeng Cai, Tien Tuan Anh Dinh, Yuncheng Wu, Yeow Meng Chee, Gang Chen, Beng Chin OoiWed, 11 Ma💻 cs

OptBench: An Interactive Workbench for AI/ML-SQL Co-Optimization[Extended Demonstration Proposal]

OptBench est une plateforme interactive unifiée permettant de construire, comparer et visualiser de manière transparente des optimiseurs de requêtes pour des charges de travail hybrides combinant SQL et intelligence artificielle/apprentissage automatique.

Jaykumar Tandel, Douglas Oscarson, Jia ZouWed, 11 Ma💻 cs

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

Cet article présente \texttt{EinSum}, une extension de la notation d'Einstein pour les calculs tensoriels relationnels, permettant de réécrire automatiquement les calculs afin d'exécuter les parties intensives via des noyaux numériques optimisés tout en gérant la grande sparsité des données par des systèmes relationnels.

Yuxin Tang, Zhiyuan Xin, Zhimin Ding, Xinyu Yao, Daniel Bourgeois, Tirthak Patel, Chris JermaineWed, 11 Ma🤖 cs.AI

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

Le papier présente Nezha, un système de stockage distribué qui intègre la séparation clé-valeur avec le protocole Raft pour éliminer les surcharges d'E/S liées aux opérations de persistance redondantes et ainsi améliorer considérablement le débit tout en garantissant une forte cohérence.

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Le papier présente DataFactory, un cadre collaboratif multi-agents qui surpasse les approches LLM existantes pour le questionnement sur les tableaux en combinant une orchestration de raisonnement, une transformation automatique des données en graphes de connaissances et une délibération flexible entre agents spécialisés pour améliorer la précision et réduire les hallucinations.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evaluating the Practical Effectiveness of LLM-Driven Index Tuning with Microsoft Database Tuning Advisor

Cette étude évalue l'efficacité pratique du réglage d'index piloté par les grands modèles de langage (LLM) en le comparant à l'outil DTA de Microsoft, révélant que bien que les LLM puissent identifier des configurations supérieures dans certains cas, leur adoption en production reste limitée par une forte variabilité des performances et des coûts de validation élevés.

Xiaoying Wang, Wentao Wu, Vivek Narasayya, Surajit ChaudhuriWed, 11 Ma💻 cs

The Virtuous Cycle: AI-Powered Vector Search and Vector Search-Augmented AI

Ce tutoriel publié à ICDE 2026 présente une vue d'ensemble complète de la synergie croissante entre l'IA et la recherche vectorielle, en explorant comment l'IA optimise les systèmes de recherche (AI4VS) et comment la recherche vectorielle, notamment via les frameworks RAG, améliore les capacités des modèles de langage (VS4AI) dans un cycle vertueux de co-optimisation.

Jiuqi Wei, Quanqing Xu, Chuanhui YangWed, 11 Ma💻 cs

GeoBenchr: An Application-Centric Benchmarking Suite for Spatiotemporal Database Platforms

Ce papier présente GeoBenchr, une suite de benchmarking open-source centrée sur les applications, conçue pour évaluer de manière complète les plateformes de bases de données spatiotemporelles face à des cas d'usage réalistes et à des charges de travail variées.

Tim C. Rese, Nils Japke, Diana Baumann, Natalie Carl, David BermbachWed, 11 Ma💻 cs

No Cliques Allowed: The Next Step Towards BDD/FC Conjecture

Ce papier fait avancer la conjecture de la contrôlabilité finie pour les ensembles de règles à profondeur de dérivation bornée en démontrant que leurs modèles universels ne peuvent contenir de tournois arbitrairement grands sans entraîner une requête de boucle.

Lucas Larroque, Piotr Ostropolski-Nalewaja, Michaël ThomazoWed, 11 Ma💻 cs

Local Stability of Rankings

Cet article propose une nouvelle mesure de stabilité locale pour les classements, capable de tenir compte des régions denses d'items similaires, et présente des algorithmes efficaces pour approximer cette métrique et détecter ces régions, tout en fournissant des garanties théoriques et des validations expérimentales.

Felix S. Campbell, Yuval MoskovitchWed, 11 Ma💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

Cet article présente un agent génératif neuro-symbolique capable de détecter et de corriger les hypothèses physiques implicites dans la littérature scientifique, évitant ainsi les hallucinations physiques en complétant autonomement les mécanismes manquants pour assurer la cohérence des simulations, comme démontré par la modélisation correcte de la pressurisation thermique dans le grès.

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong HuangWed, 11 Ma💻 cs

Expressive Power of Property Graph Constraint Languages

Cet article présente la première étude systématique de la puissance expressive du langage PG-Keys par rapport aux dépendances fonctionnelles et génératives sur les graphes, établissant une hiérarchie stricte de leurs capacités au sein d'un cadre unifié pour éclairer la révision future de la norme GQL.

Stefania Dumbrava, Nadime Francis, Victor Marsault, Steven SaillyWed, 11 Ma💻 cs

How to Write to SSDs

Cette étude démontre que l'adoption d'écritures hors lieu dans les systèmes de bases de données, illustrée par la refonte de LeanStore, est essentielle pour réduire l'amplification d'écriture, améliorer les performances et prolonger la durée de vie des SSD, tout en supportant des interfaces modernes comme ZNS et FDP.

Bohyun Lee, Tobias Ziegler, Viktor LeisWed, 11 Ma💻 cs

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

Ce papier présente WikiDBGraph, une nouvelle suite de benchmark à grande échelle construite à partir de 100 000 bases de données réelles interconnectées, conçue pour évaluer les limites des méthodes d'apprentissage collaboratif face aux défis réels de gestion des silos de données fragmentés et non alignés.

Zhaomin Wu, Ziyang Wang, Bingsheng HeTue, 10 Ma🤖 cs.LG

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Ce papier présente MMTU, un benchmark à grande échelle comprenant plus de 28 000 questions sur 25 tâches réelles, conçu pour évaluer de manière exhaustive les capacités des modèles de langage à comprendre, raisonner et manipuler des données tabulaires au niveau expert, révélant ainsi des lacunes significatives même chez les modèles les plus avancés.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Ce papier présente TableEG, un cadre exploitant des modèles de langage de grande taille pour générer des erreurs authentiques dans des données tabulaires, comblant ainsi le fossé entre les erreurs synthétiques et réelles afin d'établir un benchmark robuste pour l'évaluation des techniques de nettoyage de données.

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin TongTue, 10 Ma🤖 cs.LG

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

Le papier présente SDFed, un cadre d'apprentissage fédéré hétérogène pour les modèles vision-langage qui résout les disparités locales-globales en permettant des prompts locaux de longueur variable tout en maintenant un prompt global fixe, grâce à une raffinement de sous-espace et un contrôle de divergence pour améliorer la performance et la robustesse.

Yicheng Di, Wei Yuan, Tieke He, Yuan Liu, Hongzhi YinTue, 10 Ma🤖 cs.LG

Approximate Nearest Neighbor Search for Modern AI: A Projection-Augmented Graph Approach

Ce papier présente PAG, un nouveau cadre de recherche de voisins les plus proches approximatifs qui intègre des techniques de projection dans un index graphique pour répondre simultanément aux exigences de performance, de mémoire et d'évolutivité des applications d'IA modernes, surpassant ainsi HNSW en vitesse de requête tout en conservant une précision élevée.

Kejing Lu, Zhenpeng Pan, Jianbin Qin, Yoshiharu Ishikawa, Chuan XiaoTue, 10 Ma🤖 cs.LG

The Fifth Graph Normal Form (5GNF): A Trait-Based Framework for Metadata Normalization in Property Graphs

Ce papier propose la Cinquième Forme Normale des Graphes (5GNF), un cadre de normalisation basé sur les traits qui externalise les métadonnées redondantes dans des nœuds de traits partagés pour améliorer la clarté sémantique et la maintenabilité des modèles de graphes de propriétés.

Yahya Sa'd, Vojtech Merunka, Renzo AnglesTue, 10 Ma💻 cs

Not All Neighbors Matter: Understanding the Impact of Graph Sparsification on GNN Pipelines

Cette étude démontre que la sparsification de graphes, en réduisant le nombre d'arêtes, constitue une étape de prétraitement légère et efficace qui accélère considérablement l'entraînement et l'inférence des réseaux de neurones graphiques (GNN) à grande échelle tout en préservant, voire en améliorant, leur précision.

Yuhang Song, Naima Abrar Shami, Romaric Duvignau, Vasiliki KalavriTue, 10 Ma🤖 cs.LG