cs.DB artículos | Gist.Science

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Este trabajo presenta DCTR, un mecanismo de recuperación de tablas que utiliza la descomposición de consultas tipadas y la conciencia de la conectividad global para mejorar la recuperación de datos en contextos de preguntas complejas sobre bases de datos relacionales.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon HulsebosTue, 10 Ma💬 cs.CL

Novel Table Search [Technical Report]

Este informe técnico presenta el problema de la Búsqueda de Tablas Novedosas (NTS) en lagos de datos y propone un método de aproximación eficiente llamado ANTs que supera a otros enfoques en la captura de novedad sintáctica y en el tiempo de ejecución.

Besat Kassaie, Renée J. MillerTue, 10 Ma💻 cs

Sketch-Oriented Databases

Este artículo presenta las bases de datos orientadas a bocetos, un marco categórico que codifica paradigmas de bases de datos como bocetos de límites finitos y sus modelos, demostrando su aplicabilidad en grafos, definiendo reglas de inferencia para rutas mediante localizadores y proponiendo bocetos de titubeo para facilitar la composición modular y el crecimiento escalable de modelos.

Dominique Duval, Rachid EchahedTue, 10 Ma💻 cs

LLM-FK: Multi-Agent LLM Reasoning for Foreign Key Detection in Large-Scale Complex Databases

El paper presenta LLM-FK, un marco de razonamiento multi-agente totalmente automatizado que supera las limitaciones de los métodos heurísticos y las soluciones LLM básicas para detectar claves foráneas en bases de datos complejas a gran escala, logrando una precisión superior al 93% y reduciendo drásticamente el espacio de búsqueda mediante la coordinación de agentes especializados para la validación, el enriquecimiento de conocimiento, el razonamiento estructurado y la verificación de consistencia global.

Zijian Tang, Ying Zhang, Sibo Cai, Ruoxuan WangTue, 10 Ma💻 cs

Tursio for Credit Unions: Powering Structured Data Search with Automated Context Graph

El artículo presenta Tursio, una plataforma segura y local que permite a los usuarios de cooperativas de crédito consultar bases de datos complejas mediante lenguaje natural, utilizando modelos de lenguaje grandes para inferir un grafo de conocimiento semántico y generar planes de consulta precisos y conformes.

Shivani Tripathi, Ravi Shetye, Shi Qiao, Alekh JindalTue, 10 Ma💻 cs

Enhancing OLAP Resilience at LinkedIn

Este artículo presenta un marco integral de mecanismos de resiliencia desarrollados para Apache Pinot en LinkedIn, incluyendo aislamiento de cargas de trabajo, reequilibrio sin impacto y selección adaptativa de servidores, que garantizan baja latencia y alta disponibilidad en sistemas OLAP a gran escala.

Praveen Chaganlal, Jia Guo, Vivek Vaidyanathan, Dino Occhialini, Sonam Mandal, Subbu Subramaniam, Siddharth Teotia, Tianqi Li, Xiaxuan Gao, Florence ZhangTue, 10 Ma💻 cs

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

El artículo presenta Dial, un sistema de NL2SQL basado en conocimiento que aborda la heterogeneidad de los dialectos SQL mediante planificación lógica consciente del dialecto, una base de conocimiento jerárquica y un bucle de depuración, logrando mejoras significativas en precisión y cobertura de características en comparación con los métodos existentes.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

El artículo presenta GP-Tree, un índice espacial en memoria que combina celdas de cuadrícula adaptativas con una estructura de árbol de prefijos para superar las limitaciones de los índices tradicionales basados en rectángulos, logrando una eficiencia de consulta hasta un orden de magnitud superior en datos espaciales complejos.

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

El artículo presenta un sistema de DNS basado en gossip estructurado que utiliza tablas de dedos de DHT y operaciones conmutativas para lograr consistencia eventual y escalabilidad en redes dinámicas masivas, reduciendo la complejidad de mensajes y eliminando la necesidad de coordinación global ante particiones de red.

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

El artículo presenta Rel-MOSS, un nuevo enfoque de aprendizaje profundo relacional que aborda el problema del desequilibrio de clases en bases de datos relacionales mediante un controlador de puertas relacional y un sintetizador de minorías guiado por relaciones, logrando así un rendimiento superior en tareas de clasificación de entidades.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi ZhangTue, 10 Ma🤖 cs.LG

Decomposition-Driven Multi-Table Retrieval and Reasoning for Numerical Question Answering

El artículo presenta DMRAL, un marco de razonamiento y recuperación impulsado por descomposición que supera a los métodos existentes en la respuesta a preguntas numéricas sobre grandes colecciones de tablas mediante la construcción de un grafo de relaciones, la alineación de la descomposición de preguntas y la generación guiada de respuestas.

Feng Luo, Hai Lan, Hui Luo, Zhifeng Bao, Xiaoli Wang, J. Shane Culpepper, Shazia SadiqTue, 10 Ma💻 cs

Samyama: A Unified Graph-Vector Database with In-Database Optimization, Agentic Enrichment, and Hardware Acceleration

El artículo presenta Samyama, una base de datos unificada de grafos y vectores escrita en Rust que integra optimización, enriquecimiento agéntico y aceleración de hardware en un solo motor, logrando un alto rendimiento y seguridad de memoria en equipos comerciales.

Madhulatha Mandarapu, Sandeep KunkunuruTue, 10 Ma💻 cs

CEMR: An Effective Subgraph Matching Algorithm with Redundant Extension Elimination

El algoritmo CEMR aborda el problema del emparejamiento de subgrafos mediante la eliminación de extensiones redundantes y técnicas de poda, logrando un rendimiento superior a los métodos existentes al reducir significativamente los cálculos duplicados en grafos grandes.

Linglin Yang, Xunbin Su, Lei Zou, Xiangyang Gou, Yinnian LinTue, 10 Ma💻 cs

PRIME: Efficient Algorithm for Token Graph Routing Problem

El artículo presenta PRIME, un algoritmo eficiente de dos etapas que optimiza el enrutamiento de intercambios de activos en grafos de tokens dinámicos mediante una búsqueda de grafos podada y un método de gradiente de signo adaptativo, logrando mejores precios de ejecución y una reducción significativa en el tiempo de cómputo en comparación con soluciones existentes como Uniswap.

Haotian Xu, Yuqing Zhu, Yuming Huang, Jing TangTue, 10 Ma💻 cs

LLM-Driven Online Aggregation for Unstructured Text Analytics

El artículo presenta OLLA, un marco de agregación en línea impulsado por modelos de lenguaje grande que acelera el procesamiento semántico en consultas relacionales mediante la transformación incremental de texto y un muestreo estratificado semántico, logrando resultados precisos en una fracción del tiempo requerido para procesar datos completos.

Chao Hui, Weizheng Lu, Yanjie Gao, Lingfeng Xiong, Yunhai Wang, Yueguo ChenTue, 10 Ma💻 cs

Direct Access for Conjunctive Queries with Negations

Este artículo generaliza los resultados de accesibilidad directa para consultas conjuntivas positivas a las consultas conjuntivas con negaciones, demostrando la tratabilidad de esta operación mediante circuitos que representan datos relacionales y estableciendo la eficiencia para clases como las consultas negativas $\beta$ -acíclicas y de ancho de anidamiento acotado.

Florent Capelli, Nofar Carmeli, Oliver Irwin, Sylvain SalvatiThu, 12 Ma💻 cs

Categorical Calculus and Algebra for Multi-Model Data

Este artículo establece una base teórica para consultar bases de datos categóricas mediante la propuesta de un cálculo y un álgebra categóricos, demostrando su equivalencia, ofreciendo reglas de optimización y analizando su poder expresivo y complejidad computacional.

Jiaheng Lu (University of Helsinki)Thu, 12 Ma💻 cs

K-Join: Combining Vertex Covers for Parallel Joins

Este artículo presenta K-Join, un nuevo algoritmo para procesamiento de uniones en computación paralela masiva que optimiza la transferencia de datos mediante una partición basada en una combinación lineal de cubiertas de vértices, logrando una carga de trabajo de $n/p^{1/\kappa}$ definida por una nueva medida teórica llamada cubierta de vértices cuasi-reducida.

Simon Frisk, Austen Fan, Paraschos KoutrisThu, 12 Ma💻 cs

HiFIVE: High-Fidelity Vector-Tile Reduction for Interactive Map Exploration

El artículo presenta HiFIVE, un marco de gestión de datos que aborda el problema de reducción de teselas visualmente consciente mediante una solución de dos etapas para lograr visualizaciones geoespaciales interactivas de alta fidelidad y escalables en el lado del cliente.

Tarlan Bahadori, Ahmed EldawyThu, 12 Ma💻 cs

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

El artículo presenta STemDist, el primer método de destilación de datos diseñado específicamente para la predicción espacio-temporal, que comprime de manera equilibrada las dimensiones espaciales y temporales a nivel de clúster y mediante granularidad de subconjuntos, logrando entrenamientos hasta 6 veces más rápidos, 8 veces más eficientes en memoria y con un error de predicción hasta un 12% menor en comparación con métodos existentes.

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung ShinThu, 12 Ma🤖 cs.LG

← Anterior Siguiente →