DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

El artículo presenta DataFactory, un marco colaborativo de múltiples agentes que supera las limitaciones de los modelos de lenguaje actuales en la respuesta a preguntas sobre tablas mediante la orquestación de equipos especializados, la transformación automática de datos a grafos de conocimiento y estrategias de ingeniería de contexto, logrando mejoras significativas en precisión y robustez en diversos conjuntos de datos.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evaluating the Practical Effectiveness of LLM-Driven Index Tuning with Microsoft Database Tuning Advisor

Este artículo evalúa la efectividad práctica del ajuste de índices impulsado por modelos de lenguaje grande (LLM) en comparación con el Asesor de Ajuste de Bases de Datos (DTA) de Microsoft, concluyendo que, aunque los LLM pueden identificar configuraciones superiores y ofrecer conocimientos intuitivos, su adopción en producción sigue siendo un desafío debido a su alta variabilidad de rendimiento y los costos de validación.

Xiaoying Wang, Wentao Wu, Vivek Narasayya, Surajit ChaudhuriWed, 11 Ma💻 cs

Epistemic Closure: Autonomous Mechanism Completion for Physically Consistent Simulation

Este trabajo presenta un agente generativo neuro-simbólico que supera las alucinaciones físicas en la simulación científica al validar y completar autónomamente los mecanismos físicos faltantes mediante razonamiento deductivo, demostrando su eficacia en la predicción correcta de la respuesta de rocas bajo presurización térmica al identificar y corregir suposiciones teóricas erróneas.

Yue Wua, Tianhao Su, Rui Hu, Mingchuan Zhao, Shunbo Hu, Deng Pan, Jizhong HuangWed, 11 Ma💻 cs

Expressive Power of Property Graph Constraint Languages

Este artículo presenta el primer estudio sistemático sobre el poder expresivo del lenguaje de restricciones PG-Keys para grafos de propiedades, estableciendo una jerarquía estricta de expresividad al compararlo con las dependencias funcionales y generativas de grafos (GFD y GGD) dentro de un marco unificado, con el fin de informar la futura revisión del estándar GQL.

Stefania Dumbrava, Nadime Francis, Victor Marsault, Steven SaillyWed, 11 Ma💻 cs

WikiDBGraph: A Data Management Benchmark Suite for Collaborative Learning over Database Silos

El artículo presenta WikiDBGraph, una suite de benchmark a gran escala construida a partir de 100.000 bases de datos relacionales reales que revela las limitaciones de los marcos actuales de aprendizaje colaborativo al ignorar los desafíos de gestión de datos en silos fragmentados y no alineados, destacando la necesidad de mejorar las etapas de preprocesamiento para un despliegue práctico.

Zhaomin Wu, Ziyang Wang, Bingsheng HeTue, 10 Ma🤖 cs.LG

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Este trabajo presenta MMTU, un nuevo benchmark a gran escala con más de 28.000 preguntas sobre 25 tareas de tablas del mundo real diseñado para evaluar exhaustivamente las capacidades de comprensión, razonamiento y manipulación de datos estructurados en modelos de lenguaje, revelando que incluso los modelos más avanzados actuales tienen un margen significativo de mejora.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

Towards Practical Benchmarking of Data Cleaning Techniques: On Generating Authentic Errors via Large Language Models

Este trabajo presenta TableEG, un marco basado en modelos de lenguaje grandes y fine-tuning que genera errores sintéticos auténticos en tablas, logrando una distribución y patrones similares a los errores reales para establecer un benchmark robusto que supera a los métodos existentes y facilita la evaluación de técnicas de detección y corrección de datos.

Xinyuan Liu, Jiahui Chen, Bocheng Hu, Yu Sun, Xinyang Chen, Shaoxu Song, Yongxin TongTue, 10 Ma🤖 cs.LG

SDFed: Bridging Local Global Discrepancy via Subspace Refinement and Divergence Control in Federated Prompt Learning

El artículo presenta SDFed, un marco de aprendizaje federado heterogéneo que mejora la adaptación de modelos visión-idioma mediante prompts globales fijos y locales variables, utilizando refinamiento de subespacio y control de divergencia para resolver las discrepancias entre datos locales y globales en entornos con recursos limitados.

Yicheng Di, Wei Yuan, Tieke He, Yuan Liu, Hongzhi YinTue, 10 Ma🤖 cs.LG

The Fifth Graph Normal Form (5GNF): A Trait-Based Framework for Metadata Normalization in Property Graphs

Este artículo presenta la Quinta Forma Normal de Grafos (5GNF), un marco de normalización basado en rasgos que extrae metadatos recurrentes en nodos canónicos para reducir la redundancia, simplificar el esquema y mejorar la claridad semántica en bases de datos de grafos, tal como se demuestra mediante su implementación y evaluación en Neo4j con el conjunto de datos Northwind.

Yahya Sa'd, Vojtech Merunka, Renzo AnglesTue, 10 Ma💻 cs