cs.DB artigos | Gist.Science

Modeling Concurrency Control as a Learnable Function

O artigo apresenta o NeurCC, um novo algoritmo de controle de concorrência baseado em aprendizado que utiliza otimização bayesiana e redução de grafos para aprender uma função eficiente que supera consistentemente os métodos mais avançados em desempenho e adaptação a diversas cargas de trabalho.

Hexiang Pan, Shaofeng Cai, Tien Tuan Anh Dinh, Yuncheng Wu, Yeow Meng Chee, Gang Chen, Beng Chin OoiWed, 11 Ma💻 cs

OptBench: An Interactive Workbench for AI/ML-SQL Co-Optimization[Extended Demonstration Proposal]

O artigo apresenta o OptBench, um ambiente de trabalho interativo que padroniza a construção, comparação e visualização de otimizadores de consultas para cargas de trabalho híbridas SQL+IA/ML, permitindo que pesquisadores e profissionais testem ideias de otimização e analisem planos de execução de forma transparente e justa.

Jaykumar Tandel, Douglas Oscarson, Jia ZouWed, 11 Ma💻 cs

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

Este artigo apresenta o \texttt{EinSum}, uma notação de soma de Einstein adaptada para computação tensorial-relacional que permite a reescrita automática de cálculos para executar componentes intensivos em kernels numéricos eficientes enquanto gerencia a esparsidade por meio de sistemas relacionais.

Yuxin Tang, Zhiyuan Xin, Zhimin Ding, Xinyu Yao, Daniel Bourgeois, Tirthak Patel, Chris JermaineWed, 11 Ma🤖 cs.AI

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

O artigo apresenta o Nezha, um sistema de armazenamento distribuído que integra separação de chaves-valor com o protocolo Raft para eliminar a sobrecarga de I/O causada por operações de persistência sobrepostas, resultando em melhorias significativas de desempenho em operações de leitura e escrita.

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

O artigo apresenta o DataFactory, um framework colaborativo multi-agente que supera as limitações de modelos de linguagem únicos na Resposta a Perguntas sobre Tabelas (TableQA) através da orquestração especializada de agentes, transformação automática de dados em grafos de conhecimento e estratégias de engenharia de contexto, resultando em ganhos significativos de precisão e robustez em benchmarks padrão.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evaluating the Practical Effectiveness of LLM-Driven Index Tuning with Microsoft Database Tuning Advisor

Este artigo avalia a eficácia prática do ajuste de índices impulsionado por modelos de linguagem de grande escala (LLM) em comparação com o Database Tuning Advisor (DTA) da Microsoft, concluindo que, embora os LLMs apresentem alta variabilidade e desafios de integração, eles têm o potencial de identificar configurações superiores e oferecer insights valiosos como uma técnica complementar.

Xiaoying Wang, Wentao Wu, Vivek Narasayya, Surajit ChaudhuriWed, 11 Ma💻 cs

The Virtuous Cycle: AI-Powered Vector Search and Vector Search-Augmented AI

Este tutorial publicado no ICDE 2026 oferece uma visão abrangente do ciclo virtuoso entre IA e busca vetorial, explorando como a IA aprimora a eficiência da busca e como a busca vetorial, especialmente através de RAG, expande as capacidades dos modelos de linguagem, além de discutir estratégias de co-otimização e desafios futuros.

Jiuqi Wei, Quanqing Xu, Chuanhui YangWed, 11 Ma💻 cs

GeoBenchr: An Application-Centric Benchmarking Suite for Spatiotemporal Database Platforms

O artigo apresenta o GeoBenchr, uma suíte de benchmarking de código aberto e centrada em aplicações para plataformas de dados espaço-temporais, projetada para avaliar de forma abrangente o desempenho, a escalabilidade e a configuração de sistemas em cenários do mundo real, como rastreamento de ciclistas, aviação e marítimo.

Tim C. Rese, Nils Japke, Diana Baumann, Natalie Carl, David BermbachWed, 11 Ma💻 cs

No Cliques Allowed: The Next Step Towards BDD/FC Conjecture

Este artigo avança na resolução da conjectura de que conjuntos de regras com profundidade de derivação limitada são finitamente controláveis, demonstrando que os modelos universais gerados por tais regras não podem conter torneios arbitrariamente grandes sem implicar uma consulta de loop.

Lucas Larroque, Piotr Ostropolski-Nalewaja, Michaël ThomazoWed, 11 Ma💻 cs

Local Stability of Rankings

Este artigo introduz o conceito de estabilidade local para avaliar como pequenas alterações nos valores de um item afetam seu ranqueamento, propondo algoritmos eficientes para aproximar essa métrica e detectar regiões densas de itens com qualidades similares, além de validar a abordagem por meio de extensos experimentos.

Felix S. Campbell, Yuval MoskovitchWed, 11 Ma💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

Este trabalho apresenta um Agente Gerativo Neuro-Simbólico que supera as limitações de alucinações físicas em modelos de linguagem ao atuar como supervisor cognitivo capaz de validar, podar e completar autonomamente mecanismos físicos, como demonstrado na correção de previsões de falha catastrófica em arenito de baixa permeabilidade ao identificar corretamente o regime drenado e o mecanismo de dissipação faltante.

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong HuangWed, 11 Ma💻 cs

Expressive Power of Property Graph Constraint Languages

Este artigo apresenta o primeiro estudo sistemático sobre o poder expressivo da linguagem PG-Keys, comparando-a com GFD e GGD dentro de um quadro unificado para estabelecer uma hierarquia completa e estrita de expressividade que esclarece o papel da PG-Keys no padrão GQL.

Stefania Dumbrava, Nadime Francis, Victor Marsault, Steven SaillyWed, 11 Ma💻 cs

How to Write to SSDs

Este artigo demonstra que a adoção de escritas fora do local (out-of-place) é essencial para maximizar o desempenho e a vida útil de SSDs em sistemas de banco de dados, propondo otimizações que reduzem significativamente a amplificação de escrita e melhoram a taxa de transferência em benchmarks OLTP.

Bohyun Lee, Tobias Ziegler, Viktor LeisWed, 11 Ma💻 cs

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

O artigo apresenta o WikiDBGraph, uma nova suíte de benchmark de grande escala construída a partir de 100.000 bancos de dados relacionais reais interconectados, projetada para avaliar e revelar as limitações dos métodos atuais de aprendizado colaborativo ao lidar com silos de dados desalinhados e fragmentados no mundo real.

Zhaomin Wu, Ziyang Wang, Bingsheng HeTue, 10 Ma🤖 cs.LG

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

O artigo apresenta o MMTU, um benchmark em larga escala com mais de 28 mil questões em 25 tarefas do mundo real, projetado para avaliar de forma abrangente a capacidade de modelos de linguagem de entender, raciocinar e manipular tabelas em nível especializado, revelando que mesmo os modelos mais avançados atuais enfrentam desafios significativos nessa área.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Este trabalho apresenta o TableEG, um framework que utiliza modelos de linguagem grandes (LLMs) ajustados para gerar erros sintéticos autênticos em tabelas, preenchendo a lacuna entre dados reais e sintéticos e estabelecendo um benchmark robusto para a avaliação de técnicas de detecção e correção de erros.

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin TongTue, 10 Ma🤖 cs.LG

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

O artigo apresenta o SDFed, um framework de aprendizado federado heterogêneo para modelos de visão e linguagem que supera as limitações de métodos existentes ao permitir prompts locais de comprimento variável e empregar refinamento de subespaço e controle de divergência para alinhar efetivamente os conhecimentos locais e globais em ambientes com dados e recursos desiguais.

Yicheng Di, Wei Yuan, Tieke He, Yuan Liu, Hongzhi YinTue, 10 Ma🤖 cs.LG

Approximate Nearest Neighbor Search for Modern AI: A Projection-Augmented Graph Approach

Este artigo apresenta o PAG (Projection-Augmented Graph), um novo framework de busca aproximada de vizinhos mais próximos que integra técnicas de projeção a índices gráficos para atender a seis demandas críticas de aplicações de IA moderna, oferecendo desempenho de consulta significativamente superior ao HNSW, indexação rápida, baixo uso de memória e robustez em alta dimensionalidade.

Kejing Lu, Zhenpeng Pan, Jianbin Qin, Yoshiharu Ishikawa, Chuan XiaoTue, 10 Ma🤖 cs.LG

The Fifth Graph Normal Form (5GNF): A Trait-Based Framework for Metadata Normalization in Property Graphs

Este artigo apresenta a Quinta Forma Normal de Grafos (5GNF), um framework baseado em "traits" que normaliza metadados em grafos de propriedades ao transformar atributos descritivos repetitivos em nós de trait compartilhados, reduzindo redundâncias e melhorando a clareza semântica sem comprometer o desempenho.

Yahya Sa'd, Vojtech Merunka, Renzo AnglesTue, 10 Ma💻 cs

Not All Neighbors Matter: Understanding the Impact of Graph Sparsification on GNN Pipelines

Este artigo apresenta um estudo abrangente que demonstra que a esparsificação de grafos pode ser uma etapa de pré-processamento leve e prática para acelerar significativamente o treinamento e a inferência de Redes Neurais em Grafos (GNNs) em escala, mantendo ou até mesmo melhorando a precisão nas tarefas de classificação de nós.

Yuhang Song, Naima Abrar Shami, Romaric Duvignau, Vasiliki KalavriTue, 10 Ma🤖 cs.LG