cs.DB articles | Gist.Science

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Ce papier présente DCTR, un mécanisme de récupération de tables qui utilise une décomposition fine des requêtes et une conscience de la connectivité globale pour améliorer la réponse aux questions complexes sur des bases de données relationnelles ouvertes.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon HulsebosTue, 10 Ma💬 cs.CL

Novel Table Search [Technical Report]

Ce rapport technique propose une nouvelle approche appelée ANTs pour résoudre le problème de la recherche de tables novatrices dans les lacs de données, en définissant formellement le concept, en prouvant la complexité du problème et en démontrant expérimentalement que la méthode surpasse les autres solutions en termes de nouveauté syntaxique et de temps d'exécution.

Besat Kassaie, Renée J. MillerTue, 10 Ma💻 cs

Sketch-Oriented Databases

Cet article propose le cadre formel des bases de données orientées esquisses, qui encode les paradigmes de bases de données graphiques et leurs fonctionnalités via des modèles catégoriels, tout en introduisant des localisateurs pour le calcul paresseux de chemins et des esquisses de « bégaiement » pour faciliter la composition modulaire et l'évolutivité.

Dominique Duval, Rachid EchahedTue, 10 Ma💻 cs

LLM-FK: Multi-Agent LLM Reasoning for Foreign Key Detection in Large-Scale Complex Databases

L'article présente LLM-FK, un cadre multi-agents entièrement automatisé qui surpasse les méthodes existantes pour détecter les clés étrangères manquantes dans de grandes bases de données complexes en résolvant les problèmes d'explosion combinatoire, d'ambiguïté contextuelle et d'incohérence globale grâce à une coordination spécialisée de quatre agents.

Zijian Tang, Ying Zhang, Sibo Cai, Ruoxuan WangTue, 10 Ma💻 cs

Tursio for Credit Unions: Powering Structured Data Search with Automated Context Graph

Ce papier présente Tursio, une plateforme de recherche de bases de données sécurisée et autonome qui permet aux utilisateurs des coopératives de crédit d'interroger des systèmes complexes en langage naturel grâce à l'inférence automatique d'un graphe de connaissances contextuel et à l'intégration de modèles de langage.

Shivani Tripathi, Ravi Shetye, Shi Qiao, Alekh JindalTue, 10 Ma💻 cs

Enhancing OLAP Resilience at LinkedIn

Ce papier présente un cadre de résilience holistique pour Apache Pinot chez LinkedIn, intégrant l'isolation des charges de travail, le rééquilibrage sans impact, la conscience des zones de maintenance et la sélection adaptative de serveurs pour garantir une faible latence et une haute disponibilité à l'échelle.

Praveen Chaganlal, Jia Guo, Vivek Vaidyanathan, Dino Occhialini, Sonam Mandal, Subbu Subramaniam, Siddharth Teotia, Tianqi Li, Xiaxuan Gao, Florence ZhangTue, 10 Ma💻 cs

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Le papier présente Dial, un système NL2SQL ancré dans des connaissances qui améliore la génération de requêtes pour des dialectes SQL hétérogènes grâce à une planification logique adaptée, une base de connaissances hiérarchique et une boucle de débogage exécutée, surpassant ainsi les méthodes existantes sur un nouveau benchmark multi-dialectes.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

Ce papier présente le GP-Tree, un index spatial en mémoire de nouvelle génération qui combine une grille adaptative et un arbre de préfixes pour remplacer les approximations grossières par des cellules fines, offrant ainsi des performances de requête nettement supérieures aux index traditionnels.

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

Ce papier présente le DNS Structured Gossip, une solution résiliente aux partitions pour les réseaux dynamiques à l'échelle d'Internet qui utilise la stabilisation passive et des vecteurs de version pour garantir une cohérence éventuelle avec une complexité de message réduite, éliminant ainsi le besoin de coordination globale.

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Ce papier présente Rel-MOSS, une nouvelle méthode d'apprentissage profond relationnel qui résout le problème du déséquilibre des classes dans les bases de données relationnelles grâce à un contrôleur de porte relationnel et un synthétiseur de minorité guidé par les relations, surpassant ainsi les méthodes actuelles sur plusieurs jeux de données.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi ZhangTue, 10 Ma🤖 cs.LG

Decomposition-Driven Multi-Table Retrieval and Reasoning for Numerical Question Answering

Ce papier présente DMRAL, un cadre innovant pour la réponse aux questions numériques sur de vastes collections de tables, qui surpasse les méthodes existantes en combinant la construction d'un graphe de relations entre tables, une décomposition de questions alignée et une récupération de tables ciblée, ainsi qu'un raisonnement guidé par sous-questions, permettant d'améliorer significativement la précision de la récupération et de la réponse.

Feng Luo, Hai Lan, Hui Luo, Zhifeng Bao, Xiaoli Wang, J. Shane Culpepper, Shazia SadiqTue, 10 Ma💻 cs

Samyama: A Unified Graph-Vector Database with In-Database Optimization, Agentic Enrichment, and Hardware Acceleration

Le papier présente Samyama, une base de données unifiée graphes-vecteurs écrite en Rust qui intègre nativement l'optimisation, l'enrichissement par agents et l'accélération matérielle pour éliminer la fragmentation des architectures modernes et offrir des performances élevées sur du matériel standard.

Madhulatha Mandarapu, Sandeep KunkunuruTue, 10 Ma💻 cs

CEMR: An Effective Subgraph Matching Algorithm with Redundant Extension Elimination

Le papier présente CEMR, un nouvel algorithme de recherche de sous-graphes qui surpasse les méthodes existantes en éliminant les extensions redondantes grâce à la fusion et à la réutilisation d'extensions communes, tout en intégrant des techniques d'élagage pour accélérer l'exécution sur de grands graphes.

Linglin Yang, Xunbin Su, Lei Zou, Xiangyang Gou, Yinnian LinTue, 10 Ma💻 cs

PRIME: Efficient Algorithm for Token Graph Routing Problem

Le papier présente PRIME, un algorithme à deux étapes optimisant le routage des échanges d'actifs sur les graphes de tokens en combinant une recherche de chemins élaguée et une méthode de gradient adaptatif, surpassant ainsi les solutions industrielles existantes en termes de prix d'exécution et de rapidité de calcul.

Haotian Xu, Yuqing Zhu, Yuming Huang, Jing TangTue, 10 Ma💻 cs

LLM-Driven Online Aggregation for Unstructured Text Analytics

Ce papier présente OLLA, un cadre d'agrégation en ligne piloté par les grands modèles de langage qui accélère le traitement sémantique des textes non structurés grâce à un échantillonnage stratifié sémantique, permettant d'atteindre une précision élevée avec moins de 4 % du temps de traitement des données complètes.

Chao Hui, Weizheng Lu, Yanjie Gao, Lingfeng Xiong, Yunhai Wang, Yueguo ChenTue, 10 Ma💻 cs

Direct Access for Conjunctive Queries with Negations

Cet article généralise les résultats de tractabilité sur l'accès direct aux réponses des requêtes conjonctives en les étendant aux requêtes signées (contenant des atomes négatifs) grâce à une technique basée sur des circuits relationnels, permettant ainsi d'unifier et d'étendre les classes connues de requêtes traitables.

Florent Capelli, Nofar Carmeli, Oliver Irwin, Sylvain SalvatiThu, 12 Ma💻 cs

Categorical Calculus and Algebra for Multi-Model Data

Cet article propose une base théorique pour l'interrogation des bases de données catégorielles en définissant et en démontrant l'équivalence d'un calcul et d'une algèbre catégoriels, tout en analysant leurs règles d'optimisation, leur pouvoir d'expression et leur complexité computationnelle.

Jiaheng Lu (University of Helsinki)Thu, 12 Ma💻 cs

K-Join: Combining Vertex Covers for Parallel Joins

Ce papier présente K-Join, un algorithme parallèle simple qui améliore le traitement des jointures en déterminant une répartition optimale des données via une combinaison linéaire de recouvrements de sommets, définissant ainsi une nouvelle mesure théorique appelée « reduced quasi vertex-cover » qui garantit une charge de travail minimale.

Simon Frisk, Austen Fan, Paraschos KoutrisThu, 12 Ma💻 cs

HiFIVE: High-Fidelity Vector-Tile Reduction for Interactive Map Exploration

Ce papier présente HiFIVE, un cadre de gestion de données qui résout le problème NP-complet de la réduction de tuiles vectorielles en préservant la fidélité visuelle et les performances interactives à l'échelle du téraoctet grâce à une approche en deux étapes combinant tri et épuration.

Tarlan Bahadori, Ahmed EldawyThu, 12 Ma💻 cs

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

Cet article présente STemDist, une méthode innovante de distillation de données conçue spécifiquement pour les séries temporelles spatio-temporelles, qui comprime simultanément les dimensions spatiales et temporelles au niveau des clusters pour accélérer l'entraînement des modèles, réduire l'usage mémoire et améliorer la précision des prévisions par rapport aux méthodes existantes.

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung ShinThu, 12 Ma🤖 cs.LG

← Précédent Suivant →