cs.DB articoli | Gist.Science

Modeling Concurrency Control as a Learnable Function

Il paper presenta NeurCC, un nuovo algoritmo di controllo della concorrenza basato sull'apprendimento automatico che, superando i limiti degli approcci tradizionali, ottimizza rapidamente le prestazioni su carichi di lavoro dinamici e diversificati tramite una funzione appresa e implementata come tabella di ricerca all'interno del database.

Hexiang Pan, Shaofeng Cai, Tien Tuan Anh Dinh, Yuncheng Wu, Yeow Meng Chee, Gang Chen, Beng Chin OoiWed, 11 Ma💻 cs

OptBench: An Interactive Workbench for AI/ML-SQL Co-Optimization[Extended Demonstration Proposal]

Il paper presenta OptBench, un ambiente di lavoro interattivo basato su DuckDB che consente a ricercatori e professionisti di costruire, confrontare e visualizzare in modo trasparente e standardizzato ottimizzatori di query per carichi di lavoro ibridi SQL e AI/ML.

Jaykumar Tandel, Douglas Oscarson, Jia ZouWed, 11 Ma💻 cs

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

Il paper introduce \texttt{EinSum}, una notazione tensor-relazionale che automatizza la scomposizione dei calcoli in Einstein per eseguire le parti computazionalmente intensive tramite kernel numerici ottimizzati e gestire la sparsità dei dati all'interno di sistemi relazionali.

Yuxin Tang, Zhiyuan Xin, Zhimin Ding, Xinyu Yao, Daniel Bourgeois, Tirthak Patel, Chris JermaineWed, 11 Ma🤖 cs.AI

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

Il paper presenta Nezha, un archivio distribuito chiave-valore che risolve le sovrapposizioni di I/O tra il protocollo di consenso Raft e i motori di storage integrando la separazione chiave-valore e una raccolta spazzatura a livelli, ottenendo così significativi miglioramenti nelle prestazioni di throughput mantenendo la coerenza forte.

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Il paper presenta DataFactory, un framework collaborativo multi-agente che supera le limitazioni dei modelli linguistici esistenti nelle risposte a domande su tabelle, combinando un coordinatore ReAct, team specializzati per database e grafi della conoscenza, e strategie di ingegneria del contesto per ottenere significativi miglioramenti di accuratezza e riduzione delle allucinazioni su diversi benchmark.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evaluating the Practical Effectiveness of LLM-Driven Index Tuning with Microsoft Database Tuning Advisor

Questo studio valuta l'efficacia pratica del tuning degli indici guidato dai LLM confrontandolo con il Database Tuning Advisor (DTA) di Microsoft, rivelando che, sebbene i LLM possano identificare configurazioni superiori in alcuni casi grazie a intuizioni umane, la loro adozione in produzione è attualmente limitata da una significativa variabilità delle prestazioni e da costi di validazione elevati.

Xiaoying Wang, Wentao Wu, Vivek Narasayya, Surajit ChaudhuriWed, 11 Ma💻 cs

The Virtuous Cycle: AI-Powered Vector Search and Vector Search-Augmented AI

Questo tutorial presentato all'ICDE 2026 esplora il ciclo virtuoso di reciproco potenziamento tra l'intelligenza artificiale e la ricerca vettoriale, analizzando come l'AI ottimizzi i sistemi di ricerca e come la ricerca vettoriale, in particolare attraverso il framework RAG, estenda le capacità dei modelli linguistici di grandi dimensioni.

Jiuqi Wei, Quanqing Xu, Chuanhui YangWed, 11 Ma💻 cs

GeoBenchr: An Application-Centric Benchmarking Suite for Spatiotemporal Database Platforms

Il paper presenta GeoBenchr, una suite di benchmarking open source e incentrata sulle applicazioni per valutare in modo completo le piattaforme di database spaziotemporali, colmando il divario tra le soluzioni esistenti e le esigenze reali di settori come il ciclismo, l'aviazione e il tracciamento marittimo.

Tim C. Rese, Nils Japke, Diana Baumann, Natalie Carl, David BermbachWed, 11 Ma💻 cs

No Cliques Allowed: The Next Step Towards BDD/FC Conjecture

Questo lavoro fa un passo verso la risoluzione della congettura sulla controllabilità finita delle regole a profondità di derivazione limitata, dimostrando che i modelli universali generati da tali regole non possono contenere tornei arbitrariamente grandi senza implicare una query ciclica.

Lucas Larroque, Piotr Ostropolski-Nalewaja, Michaël ThomazoWed, 11 Ma💻 cs

Local Stability of Rankings

Questo lavoro introduce il concetto di "stabilità locale" per valutare l'impatto di piccole variazioni nei valori degli elementi sul loro posizionamento nelle classifiche, proponendo algoritmi efficienti per approssimare tale misura e rilevare le regioni dense, pur dimostrando la complessità computazionale del problema generale.

Felix S. Campbell, Yuval MoskovitchWed, 11 Ma💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

Questo lavoro presenta un agente generativo neuro-simbolico che supera le allucinazioni fisiche dei modelli linguistici tradizionali validando autonomamente le assunzioni teoriche e completando i meccanismi fisici mancanti, come dimostrato nella simulazione coerente della pressurizzazione termica in arenaria a bassa permeabilità.

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong HuangWed, 11 Ma💻 cs

Expressive Power of Property Graph Constraint Languages

Questo studio presenta un'analisi sistematica e unificata della potenza espressiva del linguaggio PG-Keys per i grafi di proprietà, confrontandolo con GFD e GGD per stabilire una gerarchia rigorosa che chiarisce il suo ruolo nel futuro standard GQL.

Stefania Dumbrava, Nadime Francis, Victor Marsault, Steven SaillyWed, 11 Ma💻 cs

How to Write to SSDs

Questo articolo dimostra che l'adozione di scritture fuori luogo (out-of-place) è fondamentale per massimizzare le prestazioni e prolungare la durata degli SSD nei sistemi di database, proponendo un redesign di LeanStore che riduce significativamente l'amplificazione delle scritture e migliora il throughput rispetto alle tradizionali scritture in luogo.

Bohyun Lee, Tobias Ziegler, Viktor LeisWed, 11 Ma💻 cs

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

Il paper presenta WikiDBGraph, un nuovo benchmark su larga scala derivato da 100.000 database relazionali reali che evidenzia le limitazioni delle attuali tecniche di apprendimento collaborativo nel gestire silos di dati frammentati e non allineati, proponendo una valutazione più realistica dell'intero ciclo di gestione dei dati.

Zhaomin Wu, Ziyang Wang, Bingsheng HeTue, 10 Ma🤖 cs.LG

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Il paper introduce MMTU, un nuovo benchmark su larga scala con oltre 28.000 domande su 25 compiti reali, progettato per valutare in modo completo le capacità di comprensione, ragionamento e manipolazione delle tabelle da parte dei modelli linguistici, rivelando che anche i modelli più avanzati attuali hanno ancora margini significativi di miglioramento in questo dominio.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Il paper introduce TableEG, un framework basato su modelli linguistici di grandi dimensioni e strategie di fine-tuning che genera errori sintetici autentici nei dati tabellari, colmando il divario tra dati reali e artificiali per fornire un benchmark robusto e affidabile per la valutazione delle tecniche di rilevamento e correzione degli errori.

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin TongTue, 10 Ma🤖 cs.LG

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

Il paper propone SDFed, un framework di apprendimento federato eterogeneo che risolve le discrepanze locali-globali nell'adattamento dei modelli visione-linguaggio consentendo prompt locali a lunghezza variabile e introducendo tecniche di raffinamento del sottospazio e controllo della divergenza per migliorare le prestazioni in ambienti con dati e risorse disomogenei.

Yicheng Di, Wei Yuan, Tieke He, Yuan Liu, Hongzhi YinTue, 10 Ma🤖 cs.LG

Approximate Nearest Neighbor Search for Modern AI: A Projection-Augmented Graph Approach

Il paper introduce PAG, un nuovo framework per la ricerca approssimata dei vicini più prossimi che integra tecniche di proiezione in un indice grafico per soddisfare simultaneamente le esigenze moderne di efficienza, velocità di indicizzazione, basso consumo di memoria e scalabilità, superando le prestazioni di HNSW.

Kejing Lu, Zhenpeng Pan, Jianbin Qin, Yoshiharu Ishikawa, Chuan XiaoTue, 10 Ma🤖 cs.LG

The Fifth Graph Normal Form (5GNF): A Trait-Based Framework for Metadata Normalization in Property Graphs

Questo articolo introduce la Quinta Forma Normale dei Grafi (5GNF), un framework basato su "trait" che normalizza i metadati nei grafi di proprietà trasformando gli attributi ricorrenti in nodi condivisi per ridurre la ridondanza, migliorare la coerenza semantica e semplificare le query, come dimostrato dall'implementazione e valutazione su Neo4j con il dataset Northwind.

Yahya Sa'd, Vojtech Merunka, Renzo AnglesTue, 10 Ma💻 cs

Not All Neighbors Matter: Understanding the Impact of Graph Sparsification on GNN Pipelines

Questo studio dimostra che la sparsificazione dei grafi, utilizzata come pre-elaborazione leggera, può accelerare significativamente l'addestramento e l'inferenza delle reti neurali su grafi (GNN) su larga scala mantenendo o addirittura migliorando l'accuratezza nei compiti di classificazione dei nodi.

Yuhang Song, Naima Abrar Shami, Romaric Duvignau, Vasiliki KalavriTue, 10 Ma🤖 cs.LG