cs.DB artigos | Gist.Science

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Este trabalho apresenta o DCTR, um mecanismo de recuperação de tabelas que utiliza decomposição de consultas tipadas e consciência de conectividade global para melhorar a precisão na recuperação de dados em contextos de perguntas complexas sobre bancos de dados relacionais.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon HulsebosTue, 10 Ma💬 cs.CL

Novel Table Search [Technical Report]

Este relatório técnico apresenta o problema de Busca de Tabelas Novas (NTS) em data lakes, propondo o método eficiente ANTs para identificar tabelas que oferecem informações sintaticamente novas em relação a uma tabela de consulta, superando outros métodos em precisão e desempenho.

Besat Kassaie, Renée J. MillerTue, 10 Ma💻 cs

Sketch-Oriented Databases

Este artigo apresenta as bases de dados orientadas a esboços, um quadro categórico que codifica paradigmas de bases de dados como esboços de limites finitos e modelos de conjuntos, ilustrando como características comuns de grafos são capturadas uniformemente, propondo regras de inferência para caminhos e introduzindo "esboços de vacilação" para facilitar a composição modular e o crescimento escalável de modelos.

Dominique Duval, Rachid EchahedTue, 10 Ma💻 cs

LLM-FK: Multi-Agent LLM Reasoning for Foreign Key Detection in Large-Scale Complex Databases

O artigo apresenta o LLM-FK, um framework multi-agente totalmente automatizado que supera as limitações dos métodos heurísticos e de soluções LLM ingênuas para detecção de chaves estrangeiras em grandes bancos de dados complexos, alcançando alta precisão e escalabilidade através de uma arquitetura coordenada de quatro agentes especializados.

Zijian Tang, Ying Zhang, Sibo Cai, Ruoxuan WangTue, 10 Ma💻 cs

Tursio for Credit Unions: Powering Structured Data Search with Automated Context Graph

O artigo apresenta o Tursio, uma plataforma de busca de banco de dados segura e local que permite a usuários de cooperativas de crédito consultarem sistemas complexos usando linguagem natural, inferindo automaticamente um grafo de conhecimento semântico e gerando planos de consulta precisos e conformes por meio da integração de Modelos de Linguagem de Grande Escala (LLMs).

Shivani Tripathi, Ravi Shetye, Shi Qiao, Alekh JindalTue, 10 Ma💻 cs

Enhancing OLAP Resilience at LinkedIn

Este artigo descreve um conjunto abrangente de mecanismos de resiliência desenvolvidos para o Apache Pinot no LinkedIn, incluindo isolamento de carga de consultas, reequilíbrio sem impacto e seleção adaptativa de servidores, que garantem baixa latência e alta disponibilidade em sistemas OLAP de grande escala sob falhas e picos de demanda.

Praveen Chaganlal, Jia Guo, Vivek Vaidyanathan, Dino Occhialini, Sonam Mandal, Subbu Subramaniam, Siddharth Teotia, Tianqi Li, Xiaxuan Gao, Florence ZhangTue, 10 Ma💻 cs

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

O artigo apresenta o Dial, um sistema de NL2SQL baseado em conhecimento que supera as limitações dos métodos existentes ao gerar consultas SQL semanticamente corretas e executáveis em diversos dialetos de banco de dados, utilizando planejamento lógico consciente de dialeto, uma base de conhecimento hierárquica e um ciclo de depuração orientado à execução.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

O artigo apresenta o GP-Tree, um índice espacial em memória que combina células de grade adaptativas com uma árvore de prefixos para superar as limitações dos índices tradicionais baseados em retângulos delimitadores, oferecendo uma filtragem mais precisa e melhorando significativamente a eficiência de consultas espaciais em grandes conjuntos de dados.

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

O artigo apresenta o "Structured Gossip DNS", um sistema de resolução de nomes escalável e resiliente a partições para redes dinâmicas em larga escala, que utiliza tabelas de dedos de DHT e estabilização passiva para reduzir a complexidade de mensagens e garantir consistência eventual sem coordenação global.

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

O artigo apresenta o Rel-MOSS, um novo método de aprendizado profundo relacional que utiliza um controlador de portas por tipo de relação e um sintetizador guiado por relações para realizar sobreamostragem de entidades minoritárias, resolvendo eficazmente o problema de desequilíbrio de classes em bancos de dados relacionais e superando os métodos atuais em precisão balanceada e média geométrica.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi ZhangTue, 10 Ma🤖 cs.LG

Decomposition-Driven Multi-Table Retrieval and Reasoning for Numerical Question Answering

O artigo apresenta o DMRAL, um framework inovador para responder a perguntas numéricas em grandes coleções de tabelas que supera as limitações dos métodos existentes ao utilizar decomposição de perguntas, um grafo de relacionamentos entre tabelas e raciocínio guiado para melhorar significativamente a recuperação de dados relevantes e a precisão das respostas.

Feng Luo, Hai Lan, Hui Luo, Zhifeng Bao, Xiaoli Wang, J. Shane Culpepper, Shazia SadiqTue, 10 Ma💻 cs

Samyama: A Unified Graph-Vector Database with In-Database Optimization, Agentic Enrichment, and Hardware Acceleration

O artigo apresenta o Samyama, um banco de dados unificado de grafos e vetores escrito em Rust que integra otimização, enriquecimento agêntico e aceleração de hardware em um único motor, demonstrando alto desempenho e segurança de memória em hardware comercial.

Madhulatha Mandarapu, Sandeep KunkunuruTue, 10 Ma💻 cs

CEMR: An Effective Subgraph Matching Algorithm with Redundant Extension Elimination

O artigo apresenta o CEMR, um novo algoritmo de correspondência de subgrafos que supera as limitações de computação redundante dos métodos existentes ao utilizar técnicas de fusão e reutilização de extensões comuns, além de estratégias de poda, demonstrando desempenho superior em conjuntos de dados reais.

Linglin Yang, Xunbin Su, Lei Zou, Xiangyang Gou, Yinnian LinTue, 10 Ma💻 cs

PRIME: Efficient Algorithm for Token Graph Routing Problem

O artigo apresenta o PRIME, um algoritmo de duas etapas que resolve eficientemente o problema de roteamento em grafos de tokens em blockchains, superando as soluções existentes como o Uniswap ao otimizar trocas de ativos com melhores preços e menor tempo de computação, tendo sido validado em ambientes de produção de fundos de hedge.

Haotian Xu, Yuqing Zhu, Yuming Huang, Jing TangTue, 10 Ma💻 cs

LLM-Driven Online Aggregation for Unstructured Text Analytics

O artigo apresenta o OLLA, um framework de agregação online impulsionado por Grandes Modelos de Linguagem (LLMs) que acelera o processamento de texto não estruturado em consultas relacionais através de amostragem estratificada semântica e agregação incremental, alcançando resultados precisos com uma fração mínima do tempo necessário para processar dados completos.

Chao Hui, Weizheng Lu, Yanjie Gao, Lingfeng Xiong, Yunhai Wang, Yueguo ChenTue, 10 Ma💻 cs

Direct Access for Conjunctive Queries with Negations

Este artigo generaliza os resultados de acessibilidade direta para consultas conjuntivas positivas, demonstrando que consultas conjuntivas assinadas (que podem conter átomos negativos) também admitem acesso direto eficiente após pré-processamento polinomial, utilizando circuitos relacionais para caracterizar classes tratáveis como as consultas negativas $\beta$ -acíclicas e de largura de conjunto de aninhamento limitada.

Florent Capelli, Nofar Carmeli, Oliver Irwin, Sylvain SalvatiThu, 12 Ma💻 cs

Categorical Calculus and Algebra for Multi-Model Data

Este artigo estabelece uma base teórica para a consulta de bancos de dados categóricos, propondo e demonstrando a equivalência entre um cálculo e uma álgebra categóricos, além de apresentar regras de otimização e analisar a expressividade e complexidade computacional dessas linguagens.

Jiaheng Lu (University of Helsinki)Thu, 12 Ma💻 cs

K-Join: Combining Vertex Covers for Parallel Joins

Este artigo apresenta o algoritmo K-Join, uma abordagem simples para processamento de junções em computação paralela massiva que combina partições de dados e o primitivo HyperCube, utilizando uma nova medida teórica chamada "reduced quasi vertex-cover" para otimizar a transferência de dados e superar ou igualar o estado da arte.

Simon Frisk, Austen Fan, Paraschos KoutrisThu, 12 Ma💻 cs

HiFIVE: High-Fidelity Vector-Tile Reduction for Interactive Map Exploration

O artigo apresenta o HiFIVE, um framework de gerenciamento de dados que utiliza uma solução de dois estágios para reduzir o tamanho de tiles vetoriais em escala terabyte, preservando a fidelidade visual e o desempenho interativo em visualizações geoespaciais no lado do cliente.

Tarlan Bahadori, Ahmed EldawyThu, 12 Ma💻 cs

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

O artigo apresenta o STemDist, o primeiro método de destilação de dados especializado para previsão espaço-temporal, que comprime simultaneamente as dimensões espacial e temporal para reduzir significativamente o tempo de treinamento e o uso de memória, mantendo ou melhorando a precisão das previsões.

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung ShinThu, 12 Ma🤖 cs.LG

← Anterior Próximo →