cs.DB artículos | Gist.Science

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

El artículo R4-CGQA aborda la evaluación de la calidad de imágenes de gráficos por computadora mediante la creación de un nuevo dataset con descripciones detalladas y la propuesta de un marco de dos corrientes basado en recuperación que mejora significativamente la capacidad de los modelos de lenguaje visuales para juzgar y explicar la calidad visual.

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi LinThu, 12 Ma💻 cs

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Este artículo presenta un marco innovador para sistemas de agentes auto-mejorables que extrae aprendizajes estructurados de las trayectorias de ejecución mediante análisis semántico y atribución de decisiones, permitiendo la recuperación contextual de estrategias, recuperaciones y optimizaciones que logran mejoras significativas en la finalización de tareas complejas.

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi ThomasThu, 12 Ma🤖 cs.AI

A Hypergraph-Based Framework for Exploratory Business Intelligence

Este artículo presenta ExBI, un sistema innovador basado en hipergrafos que supera las limitaciones de los sistemas de Inteligencia de Negocios tradicionales mediante esquemas dinámicos y reutilización de vistas, logrando aceleraciones significativas (hasta 230 veces) y una alta precisión en flujos de trabajo exploratorios a gran escala.

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution

El artículo presenta EvoSchema, un nuevo benchmark que evalúa y mejora la robustez de los sistemas de texto-a-SQL frente a la evolución de esquemas de bases de datos mediante una taxonomía de perturbaciones que revela el impacto crítico de los cambios a nivel de tabla y demuestra que el entrenamiento con datos perturbados genera modelos más resilientes.

Tianshu Zhang, Kun Qian, Siddhartha Sahai, Yuan Tian, Shaddy Garg, Huan Sun, Yunyao LiThu, 12 Ma💬 cs.CL

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

El artículo presenta Pneuma-Seeker, un sistema basado en la reificación relacional que utiliza agentes de IA para transformar las necesidades de información imprecisas de los usuarios en esquemas de datos concretos y ejecutables, logrando así una mayor precisión y confianza al trabajar sobre datos relacionales heterogéneos en comparación con enfoques basados únicamente en prompts.

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro FernandezThu, 12 Ma💻 cs

Beyond Standard Datacubes: Extracting Features from Irregular and Branching Earth System Data

Este artículo presenta un marco unificado basado en hipercubos de datos comprimidos mediante estructuras arbóreas dentro del sistema Polytope, diseñado para superar las limitaciones de los modelos tradicionales y permitir una extracción eficiente y flexible de características en conjuntos de datos de ciencias de la Tierra irregulares y complejos.

Mathilde Leuridan, James Hawkes, Tiago Quintino, Martin SchultzThu, 12 Ma💻 cs

Poisson Sampling over Acyclic Joins

El artículo presenta un algoritmo casi óptimo para el muestreo de Poisson en uniones acíclicas que, mediante la construcción de un índice de acceso aleatorio y su sondeo, supera a los métodos tradicionales y permite implementar tanto el procesamiento de uniones como el muestreo sobre una base común sin perder rendimiento.

Liese Bekkers, Frank Neven, Lorrens Pantelis, Stijn VansummerenThu, 12 Ma💻 cs

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

Este artículo presenta HCT-QA, un nuevo benchmark exhaustivo para la respuesta a preguntas sobre tablas centradas en humanos (HCTs) que incluye miles de tablas reales y sintéticas con sus correspondientes pares de preguntas y respuestas, evaluando el rendimiento de diversos modelos de lenguaje y visión y demostrando que el ajuste fino mejora significativamente la precisión.

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-SayehMon, 09 Ma🤖 cs.AI

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

El artículo presenta KramaBench, un nuevo benchmark que evalúa la capacidad de los sistemas de IA para orquestar pipelines completos de "datos a conocimientos" sobre lagos de datos reales, revelando que, aunque los sistemas actuales pueden generar borradores plausibles, su precisión para ejecutar pipelines integrales y funcionales sigue siendo limitada.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim KraskaMon, 09 Ma🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Este artículo introduce nuevas métricas y evalúa agentes LLM para el campo de "Text-to-Big SQL", demostrando que las métricas tradicionales de Text-to-SQL son insuficientes para entornos de datos a gran escala donde los errores de traducción generan costos y latencia significativos.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-ArtigasMon, 09 Ma💬 cs.CL

Efficient Query Rewrite Rule Discovery via Standardized Enumeration and Learning-to-Rank(extend)

El sistema SLER presenta un enfoque escalable para el descubrimiento de reglas de reescritura de consultas que combina la enumeración de plantillas estandarizadas con un modelo de aprendizaje para clasificar, logrando generar automáticamente un repositorio de más de un millón de reglas y permitiendo optimizaciones complejas en planes de consulta de gran tamaño.

Yuan Zhang, Yuxing Chen, Yuekun Yu, Jinbin Huang, Rui Mao, Anqun Pan, Lixiong Zheng, Jianbin QinMon, 09 Ma💻 cs

Publication and Maintenance of Relational Data in Enterprise Knowledge Graphs (Revised Version)

Este artículo propone un marco formal, junto con su arquitectura y algoritmos, para construir y mantener incrementalmente vistas materializadas de datos relacionales en grafos de conocimiento empresariales, garantizando así la disponibilidad y el rendimiento de los datos actualizados.

Vânia Maria Ponte Vidal (Departamento de Computação, UFC, Fortaleza, Brazil), Valéria Magalhães Pequeno (TechLab, Departamento de Ciências e Tecnologias, UAL, Lisboa, Portugal), Marco Antonio Casanova (Instituto Tecgraf, Puc-Rio, Rio de Janeiro, Brazil), Narciso Arruda (Departamento de Computação, UFC, Fortaleza, Brazil), Carlos Brito (Departamento de Computação, UFC, Fortaleza, Brazil)Mon, 09 Ma💻 cs

Towards Neural Graph Data Management

El artículo presenta NGDBench, un benchmark unificado que evalúa las capacidades de las bases de datos neuronales mediante consultas Cypher complejas en diversos dominios, revelando las limitaciones actuales de los modelos de lenguaje y los métodos RAG en el razonamiento estructurado y la gestión de datos gráficos.

Yufei Li, Yisen Gao, Jiaxin Bai, Jiaxuan Xiong, Haoyu Huang, Zhongwei Xie, Hong Ting Tsang, Yangqiu SongMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Este artículo examina los desafíos y oportunidades que la era de la IA plantea para la interacción humano-datos y la visualización, destacando la necesidad de trascender las métricas tradicionales y redefinir los roles humanos y artificiales para abordar problemas como la incertidumbre, la latencia y la escalabilidad en el análisis de datos no estructurados.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Space-efficient B-tree Implementation for Memory-Constrained Flash Embedded Devices

Este trabajo presenta y evalúa experimentalmente variantes de árboles B optimizadas para dispositivos embebidos con recursos de memoria limitados, demostrando que estas optimizaciones específicas para almacenamiento permiten un indexado eficiente en dispositivos IoT de pequeño tamaño.

Nadir Ould-Khessal, Scott Fazackerley, Ramon LawrenceMon, 09 Ma💻 cs

Querying with Conflicts of Interest

Este artículo presenta un marco formal y algoritmos eficientes para detectar y reformular consultas en entornos donde las fuentes de datos tienen incentivos para proporcionar resultados sesgados debido a conflictos de interés, permitiendo así a los usuarios extraer información relevante.

Nischal Aryal, Arash Termehchy, Marianne WinslettMon, 09 Ma💻 cs

Efficient Vector Search in the Wild: One Model for Multi-K Queries

El artículo presenta OMEGA, un método de búsqueda aprendida que generaliza a múltiples valores de K con alta precisión y rendimiento, utilizando un modelo base entrenado en K=1 y un procedimiento de refinamiento dinámico para reducir significativamente la latencia y los costos de preprocesamiento en comparación con los métodos actuales.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo ChenMon, 09 Ma🤖 cs.LG

Tag-specific Regret Minimization Problem in Outdoor Advertising

Este artículo presenta el problema de minimización de arrepentimiento específico de etiquetas en publicidad exterior (TRMOA), demuestra su complejidad computacional y propone algoritmos heurísticos como un enfoque de ronda redonda con equidad y métodos de búsqueda local para optimizar la asignación de espacios publicitarios bajo restricciones presupuestarias.

Dildar Ali, Abishek Salaria, Ansh Jasrotia, Suman BanerjeeMon, 09 Ma💻 cs

CARROT: A Learned Cost-Constrained Retrieval Optimization System for RAG

El paper presenta CARROT, un sistema de optimización de recuperación para RAG que utiliza Búsqueda por Árbol Monte Carlo y un agente de configuración para seleccionar y ordenar óptimamente fragmentos de conocimiento, mejorando la precisión y adaptabilidad de los modelos de lenguaje grandes hasta en un 30% frente a enfoques existentes.

Ziting Wang, Haitao Yuan, Wei Dong, Gao Cong, Feifei LiFri, 13 Ma💬 cs.CL

Knowledge Distillation with Structured Chain-of-Thought for Text-to-SQL

El artículo presenta Struct-SQL, un marco de destilación de conocimiento que mejora significativamente la generación de SQL en modelos de lenguaje pequeños al utilizar planes de ejecución de consultas como representaciones de razonamiento estructurado, logrando una mejora del 8,1% sobre enfoques basados en razonamiento no estructurado.

Khushboo Thaker, Yony BreslerFri, 13 Ma💬 cs.CL

← Anterior Siguiente →