cs.DB articoli | Gist.Science

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Il paper presenta DCTR, un meccanismo di recupero tabelle che utilizza la decomposizione di query tipizzate e la consapevolezza della connettività globale per migliorare la risposta a domande complesse su database relazionali, dimostrando robustezza su benchmark industriali.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon HulsebosTue, 10 Ma💬 cs.CL

Novel Table Search [Technical Report]

Questo rapporto tecnico introduce il problema della Ricerca di Tabelle Novelle (NTS) per i data lake, definisce un meccanismo di punteggio per la novità sintattica, dimostra la complessità NP-difficile dell'ottimizzazione e propone l'algoritmo approssimato ANTs, che negli esperimenti supera gli altri metodi in termini di efficacia e tempi di esecuzione.

Besat Kassaie, Renée J. MillerTue, 10 Ma💻 cs

Sketch-Oriented Databases

Questo articolo introduce i database orientati agli schizzi, un quadro categorico che codifica paradigmi e schemi di database come modelli di schizzi a limite finito, illustrando come concetti come percorsi e attributi siano catturati uniformemente e proponendo meccanismi come i localizzatori e gli schizzi di "stuttering" per l'inferenza di percorsi e la composizione modulare.

Dominique Duval, Rachid EchahedTue, 10 Ma💻 cs

LLM-FK: Multi-Agent LLM Reasoning for Foreign Key Detection in Large-Scale Complex Databases

Il paper presenta LLM-FK, un innovativo framework multi-agente automatizzato che supera i limiti dei metodi euristici e delle soluzioni LLM naive per il rilevamento di chiavi estere mancanti in database complessi su larga scala, ottenendo prestazioni superiori (F1 > 93%) attraverso una coordinazione specializzata di agenti che riduce drasticamente lo spazio di ricerca e garantisce coerenza globale.

Zijian Tang, Ying Zhang, Sibo Cai, Ruoxuan WangTue, 10 Ma💻 cs

Tursio for Credit Unions: Powering Structured Data Search with Automated Context Graph

Il documento presenta Tursio, una piattaforma di ricerca database sicura e on-premise per le cooperative di credito che utilizza modelli linguistici su larga scala per generare automaticamente un grafo della conoscenza contestuale, permettendo agli utenti aziendali di interrogare sistemi complessi tramite linguaggio naturale in modo conforme alle normative.

Shivani Tripathi, Ravi Shetye, Shi Qiao, Alekh JindalTue, 10 Ma💻 cs

Enhancing OLAP Resilience at LinkedIn

Il documento presenta un quadro olistico di meccanismi di resilienza sviluppati per Apache Pinot presso LinkedIn, che includono isolamento del carico di lavoro, ribilanciamento senza impatti e selezione adattiva dei server, garantendo prestazioni stabili e alta disponibilità su larga scala.

Praveen Chaganlal, Jia Guo, Vivek Vaidyanathan, Dino Occhialini, Sonam Mandal, Subbu Subramaniam, Siddharth Teotia, Tianqi Li, Xiaxuan Gao, Florence ZhangTue, 10 Ma💻 cs

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Il paper presenta Dial, un sistema NL2SQL basato sulla conoscenza che supera le limitazioni dei metodi esistenti nel gestire diversi dialetti SQL attraverso una pianificazione logica consapevole del dialetto, una base di conoscenza gerarchica e un ciclo di verifica semantica, dimostrando miglioramenti significativi nell'accuratezza e nella copertura delle funzionalità su un nuovo benchmark multi-database.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

Il paper presenta GP-Tree, un indice spaziale in memoria che combina celle di griglia adattive con una struttura ad albero di prefissi per superare i limiti delle approssimazioni tradizionali, offrendo una precisione di filtraggio superiore e prestazioni di query fino a un ordine di grandezza migliori rispetto agli indici spaziali esistenti.

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

Il paper presenta il "Structured Gossip DNS", un protocollo di risoluzione dei nomi per reti dinamiche su larga scala che utilizza tabelle a dita DHT e operazioni commutative per garantire la resilienza alle partizioni e la consistenza eventuale senza coordinamento globale, riducendo la complessità dei messaggi da $O(n)$ a $O(n/\log n)$ .

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Il paper introduce Rel-MOSS, un nuovo approccio di apprendimento profondo relazionale che affronta il problema dello squilibrio delle classi nei database relazionali mediante un sintetizzatore di minoranza guidato dalle relazioni e un controllore di gate relazionale, ottenendo prestazioni superiori rispetto agli stati dell'arte su 12 dataset.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi ZhangTue, 10 Ma🤖 cs.LG

Decomposition-Driven Multi-Table Retrieval and Reasoning for Numerical Question Answering

Il paper presenta DMRAL, un framework basato sulla decomposizione che supera le limitazioni delle soluzioni esistenti per il question answering numerico su grandi collezioni di tabelle, migliorando significativamente sia il recupero delle tabelle pertinenti che l'accuratezza delle risposte attraverso la costruzione di un grafo di relazioni, un decompositore di domande allineato alle tabelle e un ragionatore guidato da sottodomande.

Feng Luo, Hai Lan, Hui Luo, Zhifeng Bao, Xiaoli Wang, J. Shane Culpepper, Shazia SadiqTue, 10 Ma💻 cs

Samyama: A Unified Graph-Vector Database with In-Database Optimization, Agentic Enrichment, and Hardware Acceleration

Il paper presenta Samyama, un database unificato graph-vector ad alte prestazioni scritto in Rust che integra ottimizzazione, arricchimento agentic e accelerazione hardware in un'unica engine, dimostrando elevate velocità di ingestione e query su hardware commerciale.

Madhulatha Mandarapu, Sandeep KunkunuruTue, 10 Ma💻 cs

CEMR: An Effective Subgraph Matching Algorithm with Redundant Extension Elimination

Il paper presenta CEMR, un nuovo algoritmo per il matching di sottografi che supera le limitazioni computazionali dei metodi esistenti riducendo le estensioni ridondanti attraverso tecniche di fusione e riutilizzo delle estensioni comuni, oltre a strategie di potatura, ottenendo prestazioni superiori su dataset reali.

Linglin Yang, Xunbin Su, Lei Zou, Xiangyang Gou, Yinnian LinTue, 10 Ma💻 cs

PRIME: Efficient Algorithm for Token Graph Routing Problem

Il paper presenta PRIME, un algoritmo efficiente a due stadi che risolve il problema di instradamento sui grafi dei token ottimizzando gli scambi di asset su blockchain attraverso una ricerca su grafo potata e un metodo di ottimizzazione convessa, superando significativamente le prestazioni di Uniswap in termini di prezzo di esecuzione e velocità di calcolo.

Haotian Xu, Yuqing Zhu, Yuming Huang, Jing TangTue, 10 Ma💻 cs

LLM-Driven Online Aggregation for Unstructured Text Analytics

Il paper presenta OLLA, un framework di aggregazione online guidato da LLM che accelera l'elaborazione semantica dei testi non strutturati trasformandoli in flussi di dati strutturati e applicando un campionamento stratificato semantico per fornire risultati progressivi con un'alta precisione e tempi di esecuzione significativamente ridotti rispetto all'elaborazione batch completa.

Chao Hui, Weizheng Lu, Yanjie Gao, Lingfeng Xiong, Yunhai Wang, Yueguo ChenTue, 10 Ma💻 cs

Direct Access for Conjunctive Queries with Negations

Questo lavoro generalizza i risultati sulla tracciabilità dell'accesso diretto alle risposte delle query congiuntive al caso di query con negazioni, dimostrando che tale operazione è fattibile in tempo polilogaritmico dopo una pre-elaborazione polinomiale per una vasta classe di query, inclusi i casi $\beta$ -aciclici e quelli con larghezza di nido limitata, utilizzando una tecnica basata su circuiti relazionali.

Florent Capelli, Nofar Carmeli, Oliver Irwin, Sylvain SalvatiThu, 12 Ma💻 cs

Categorical Calculus and Algebra for Multi-Model Data

Questo articolo propone un fondamento teorico per l'interrogazione di database categoriali, introducendo il calcolo e l'algebra categoriali come estensioni dei rispettivi formalismi relazionali, dimostrandone l'equivalenza e analizzando le regole di ottimizzazione, l'espressività e la complessità computazionale.

Jiaheng Lu (University of Helsinki)Thu, 12 Ma💻 cs

K-Join: Combining Vertex Covers for Parallel Joins

Il paper presenta K-Join, un nuovo algoritmo semplice per l'elaborazione di join in ambienti di calcolo parallelo massivo che, combinando partizionamento dei dati e il primitivo HyperCube attraverso una scelta innovativa delle quote basata su coperture dei vertici, raggiunge un carico di lavoro ottimale pari a $n/p^{1/\kappa}$ , dove $\kappa$ è una nuova misura teorica chiamata "reduced quasi vertex-cover".

Simon Frisk, Austen Fan, Paraschos KoutrisThu, 12 Ma💻 cs

HiFIVE: High-Fidelity Vector-Tile Reduction for Interactive Map Exploration

Il paper presenta HiFIVE, un framework di gestione dati che risolve il problema NP-difficile della riduzione delle piastrelle vettoriali per la visualizzazione geospaziale interattiva su client, garantendo una significativa riduzione delle dimensioni dei dati su scala terabyte senza comprometterne la fedeltà visiva.

Tarlan Bahadori, Ahmed EldawyThu, 12 Ma💻 cs

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

Il paper presenta STemDist, il primo metodo di distillazione dei dati progettato specificamente per le previsioni spaziotemporali, che comprime in modo bilanciato le dimensioni spaziali e temporali a livello di cluster per ridurre drasticamente tempi e risorse di addestramento mantenendo un'elevata accuratezza predittiva.

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung ShinThu, 12 Ma🤖 cs.LG

← Precedente Successivo →