cs.DB artículos | Gist.Science

Modeling Concurrency Control as a Learnable Function

El artículo presenta NeurCC, un algoritmo de control de concurrencia aprendido que utiliza optimización bayesiana y búsqueda de reducción de grafos para generar una tabla de búsqueda eficiente que supera consistentemente a los métodos existentes en rendimiento y adaptabilidad ante diversas cargas de trabajo.

Hexiang Pan, Shaofeng Cai, Tien Tuan Anh Dinh, Yuncheng Wu, Yeow Meng Chee, Gang Chen, Beng Chin OoiWed, 11 Ma💻 cs

OptBench: An Interactive Workbench for AI/ML-SQL Co-Optimization[Extended Demonstration Proposal]

El artículo presenta OptBench, un entorno interactivo basado en DuckDB que permite construir, comparar y visualizar de manera transparente optimizadores de consultas para cargas de trabajo híbridas que combinan SQL con inferencias de inteligencia artificial y aprendizaje automático.

Jaykumar Tandel, Douglas Oscarson, Jia ZouWed, 11 Ma💻 cs

Automated Tensor-Relational Decomposition for Large-Scale Sparse Tensor Computation

Este artículo presenta \texttt{EinSum}, una notación tensor-relacional que automatiza la descomposición de cálculos en Einstein para ejecutar componentes intensivos mediante núcleos numéricos eficientes mientras gestiona la dispersión de los datos de forma relacional.

Yuxin Tang, Zhiyuan Xin, Zhimin Ding, Xinyu Yao, Daniel Bourgeois, Tirthak Patel, Chris JermaineWed, 11 Ma🤖 cs.AI

Nezha: A Key-Value Separated Distributed Store with Optimized Raft Integration

Nezha es un almacén distribuido de clave-valor que integra la separación de claves y valores con el protocolo Raft para eliminar la sobrecarga de E/S causada por operaciones de persistencia superpuestas, logrando mejoras significativas en el rendimiento de lectura y escritura mientras mantiene garantías de consistencia fuerte.

Yangyang Wang, Yucong Dong, Ziqian Cheng, Zichen XuWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

El artículo presenta DataFactory, un marco colaborativo de múltiples agentes que supera las limitaciones de los modelos de lenguaje actuales en la respuesta a preguntas sobre tablas mediante la orquestación de equipos especializados, la transformación automática de datos a grafos de conocimiento y estrategias de ingeniería de contexto, logrando mejoras significativas en precisión y robustez en diversos conjuntos de datos.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evaluating the Practical Effectiveness of LLM-Driven Index Tuning with Microsoft Database Tuning Advisor

Este artículo evalúa la efectividad práctica del ajuste de índices impulsado por modelos de lenguaje grande (LLM) en comparación con el Asesor de Ajuste de Bases de Datos (DTA) de Microsoft, concluyendo que, aunque los LLM pueden identificar configuraciones superiores y ofrecer conocimientos intuitivos, su adopción en producción sigue siendo un desafío debido a su alta variabilidad de rendimiento y los costos de validación.

Xiaoying Wang, Wentao Wu, Vivek Narasayya, Surajit ChaudhuriWed, 11 Ma💻 cs

The Virtuous Cycle: AI-Powered Vector Search and Vector Search-Augmented AI

Este tutorial de ICDE 2026 ofrece una visión integral de la convergencia entre la búsqueda vectorial y la IA, explorando cómo se potencian mutuamente mediante técnicas de aprendizaje automático y marcos de generación aumentada por recuperación (RAG) para establecer un ciclo virtuoso de optimización y mejora de capacidades.

Jiuqi Wei, Quanqing Xu, Chuanhui YangWed, 11 Ma💻 cs

GeoBenchr: An Application-Centric Benchmarking Suite for Spatiotemporal Database Platforms

Este artículo presenta GeoBenchr, una suite de evaluación de código abierto y centrada en aplicaciones diseñada para comparar de manera integral el rendimiento de plataformas de bases de datos espaciotemporales en escenarios del mundo real, como el seguimiento de ciclismo, aviación y marítimo.

Tim C. Rese, Nils Japke, Diana Baumann, Natalie Carl, David BermbachWed, 11 Ma💻 cs

No Cliques Allowed: The Next Step Towards BDD/FC Conjecture

Este artículo avanza hacia la resolución de la conjetura de que los conjuntos de reglas de profundidad de derivación acotada (bdd) son finitamente controlables (fc), demostrando que sus modelos universales no pueden contener torneos arbitrariamente grandes sin implicar una consulta de bucle, lo que reduce el espacio de posibles contraejemplos.

Lucas Larroque, Piotr Ostropolski-Nalewaja, Michaël ThomazoWed, 11 Ma💻 cs

Local Stability of Rankings

Este artículo introduce el concepto de estabilidad local para medir cómo afectan los cambios menores en los valores de los ítems a su clasificación, proponiendo algoritmos eficientes para aproximar esta métrica y detectar regiones densas, junto con garantías teóricas y validación experimental.

Felix S. Campbell, Yuval MoskovitchWed, 11 Ma💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

Este trabajo presenta un agente generativo neuro-simbólico que supera las alucinaciones físicas en la simulación científica al validar y completar autónomamente los mecanismos físicos faltantes mediante razonamiento deductivo, demostrando su eficacia en la predicción correcta de la respuesta de rocas bajo presurización térmica al identificar y corregir suposiciones teóricas erróneas.

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong HuangWed, 11 Ma💻 cs

Expressive Power of Property Graph Constraint Languages

Este artículo presenta el primer estudio sistemático sobre el poder expresivo del lenguaje de restricciones PG-Keys para grafos de propiedades, estableciendo una jerarquía estricta de expresividad al compararlo con las dependencias funcionales y generativas de grafos (GFD y GGD) dentro de un marco unificado, con el fin de informar la futura revisión del estándar GQL.

Stefania Dumbrava, Nadime Francis, Victor Marsault, Steven SaillyWed, 11 Ma💻 cs

How to Write to SSDs

Este artículo demuestra que la adopción de escrituras fuera de lugar es fundamental para optimizar el rendimiento y la vida útil de las SSD, presentando un rediseño de LeanStore que reduce significativamente la amplificación de escritura y mejora el rendimiento en cargas de trabajo OLTP.

Bohyun Lee, Tobias Ziegler, Viktor LeisWed, 11 Ma💻 cs

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

El artículo presenta WikiDBGraph, una suite de benchmark a gran escala construida a partir de 100.000 bases de datos relacionales reales que revela las limitaciones de los marcos actuales de aprendizaje colaborativo al ignorar los desafíos de gestión de datos en silos fragmentados y no alineados, destacando la necesidad de mejorar las etapas de preprocesamiento para un despliegue práctico.

Zhaomin Wu, Ziyang Wang, Bingsheng HeTue, 10 Ma🤖 cs.LG

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Este trabajo presenta MMTU, un nuevo benchmark a gran escala con más de 28.000 preguntas sobre 25 tareas de tablas del mundo real diseñado para evaluar exhaustivamente las capacidades de comprensión, razonamiento y manipulación de datos estructurados en modelos de lenguaje, revelando que incluso los modelos más avanzados actuales tienen un margen significativo de mejora.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Este trabajo presenta TableEG, un marco basado en modelos de lenguaje grandes y fine-tuning que genera errores sintéticos auténticos en tablas, logrando una distribución y patrones similares a los errores reales para establecer un benchmark robusto que supera a los métodos existentes y facilita la evaluación de técnicas de detección y corrección de datos.

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin TongTue, 10 Ma🤖 cs.LG

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

El artículo presenta SDFed, un marco de aprendizaje federado heterogéneo que mejora la adaptación de modelos visión-idioma mediante prompts globales fijos y locales variables, utilizando refinamiento de subespacio y control de divergencia para resolver las discrepancias entre datos locales y globales en entornos con recursos limitados.

Yicheng Di, Wei Yuan, Tieke He, Yuan Liu, Hongzhi YinTue, 10 Ma🤖 cs.LG

Approximate Nearest Neighbor Search for Modern AI: A Projection-Augmented Graph Approach

Este artículo presenta PAG, un nuevo marco de búsqueda de vecinos más cercanos aproximados que integra proyecciones en índices gráficos para satisfacer las demandas modernas de eficiencia, escalabilidad y actualizaciones en línea, logrando un rendimiento de búsqueda hasta 5 veces superior al de HNSW.

Kejing Lu, Zhenpeng Pan, Jianbin Qin, Yoshiharu Ishikawa, Chuan XiaoTue, 10 Ma🤖 cs.LG

The Fifth Graph Normal Form (5GNF): A Trait-Based Framework for Metadata Normalization in Property Graphs

Este artículo presenta la Quinta Forma Normal de Grafos (5GNF), un marco de normalización basado en rasgos que extrae metadatos recurrentes en nodos canónicos para reducir la redundancia, simplificar el esquema y mejorar la claridad semántica en bases de datos de grafos, tal como se demuestra mediante su implementación y evaluación en Neo4j con el conjunto de datos Northwind.

Yahya Sa'd, Vojtech Merunka, Renzo AnglesTue, 10 Ma💻 cs

Not All Neighbors Matter: Understanding the Impact of Graph Sparsification on GNN Pipelines

Este artículo demuestra que la esparsificación de grafos, como paso de preprocesamiento ligero, puede acelerar significativamente el entrenamiento y la inferencia de redes neuronales gráficas (GNN) a gran escala sin comprometer, e incluso mejorando en algunos casos, la precisión en tareas de clasificación de nodos.

Yuhang Song, Naima Abrar Shami, Romaric Duvignau, Vasiliki KalavriTue, 10 Ma🤖 cs.LG