cs.DB artigos | Gist.Science

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

O artigo R4-CGQA aborda a avaliação de qualidade de imagens de computação gráfica ao criar um novo conjunto de dados com descrições textuais e propor um framework de duas correntes baseado em recuperação (retrieval-augmented generation) que melhora significativamente a capacidade dos modelos de linguagem visuais de avaliar e explicar a qualidade dessas imagens.

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi LinThu, 12 Ma💻 cs

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Este artigo apresenta um novo framework para agentes autônomos que melhora o desempenho futuro ao extrair automaticamente aprendizados estruturados de trajetórias de execução e recuperá-los contextualmente, resultando em ganhos significativos na conclusão de tarefas complexas.

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi ThomasThu, 12 Ma🤖 cs.AI

A Hypergraph-Based Framework for Exploratory Business Intelligence

O artigo apresenta o ExBI, um sistema inovador baseado em hipergrafos que supera as limitações da Inteligência de Negócios tradicional ao permitir a evolução dinâmica de esquemas e a reutilização de visões materializadas, alcançando acelerações significativas de desempenho e alta precisão em workflows exploratórios de grande escala.

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution

O artigo apresenta o EvoSchema, um benchmark abrangente que introduz uma nova taxonomia de evolução de esquemas para avaliar e melhorar a robustez dos modelos de texto-para-SQL frente a mudanças dinâmicas em bancos de dados, demonstrando que perturbações no nível de tabelas impactam mais o desempenho e que o treinamento com dados diversificados gera sistemas mais resilientes.

Tianshu Zhang, Kun Qian, Siddhartha Sahai, Yuan Tian, Shaddy Garg, Huan Sun, Yunyao LiThu, 12 Ma💬 cs.CL

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

O artigo apresenta o Pneuma-Seeker, um sistema que alinha agentes de IA ao trabalho humano com dados relacionais ao representar necessidades de informação como esquemas relacionais reificados e iterativamente refinados, superando a fragilidade dos LLMs em solicitações mal especificadas e demonstrando maior precisão e confiabilidade em ambientes reais.

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro FernandezThu, 12 Ma💻 cs

Beyond Standard Datacubes: Extracting Features from Irregular and Branching Earth System Data

Este artigo apresenta um sistema integrado de extração de características baseado em hiper-cubos de dados comprimidos em árvores dentro do framework Polytope, oferecendo uma solução eficiente e escalável para acessar e analisar conjuntos de dados complexos, irregulares e heterogêneos das ciências da Terra que desafiam os modelos tradicionais de datacubes.

Mathilde Leuridan, James Hawkes, Tiago Quintino, Martin SchultzThu, 12 Ma💻 cs

Poisson Sampling over Acyclic Joins

Este artigo apresenta um algoritmo quase ótimo para amostragem de Poisson em junções acíclicas, que combina a construção de um índice de acesso aleatório com um processo de sondagem para gerar amostras de forma eficiente em bancos de dados colunares, superando métodos tradicionais e oferecendo uma base unificada para o processamento de junções e amostragem.

Liese Bekkers, Frank Neven, Lorrens Pantelis, Stijn VansummerenThu, 12 Ma💻 cs

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

Este artigo apresenta o HCT-QA, um novo benchmark abrangente para avaliação de modelos de linguagem e visão na resposta a perguntas sobre tabelas centradas no humano (HCTs), oferecendo um vasto conjunto de dados reais e sintéticos que supera as limitações das soluções existentes e demonstra ganhos significativos de desempenho através de ajuste fino.

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-SayehMon, 09 Ma🤖 cs.AI

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

O artigo apresenta o KramaBench, um benchmark composto por 104 desafios curados manualmente para avaliar a capacidade de sistemas de IA em orquestrar pipelines completos de dados a insights em lagos de dados, revelando que, embora os modelos atuais consigam identificar tarefas individuais, eles ainda têm dificuldade significativa em gerar e executar pipelines funcionais de ponta a ponta.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim KraskaMon, 09 Ma🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Este artigo introduz novas métricas e uma avaliação abrangente de agentes LLM para o cenário de "Text-to-Big SQL", demonstrando que as métricas tradicionais de Text-to-SQL são insuficientes para capturar os impactos de custo, latência e eficiência em escala de grandes volumes de dados.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-ArtigasMon, 09 Ma💬 cs.CL

Efficient Query Rewrite Rule Discovery via Standardized Enumeration and Learning-to-Rank(extend)

O artigo apresenta o SLER, um sistema escalável que combina enumeração de templates padronizados com uma abordagem de aprendizado para ranqueamento para descobrir regras de reescrita de consultas de forma eficiente, superando limitações de redundância e escalabilidade e gerando um repositório de mais de um milhão de regras validadas em cenários reais.

Yuan Zhang, Yuxing Chen, Yuekun Yu, Jinbin Huang, Rui Mao, Anqun Pan, Lixiong Zheng, Jianbin QinMon, 09 Ma💻 cs

Publication and Maintenance of Relational Data in Enterprise Knowledge Graphs (Revised Version)

Este artigo propõe um framework formal, juntamente com uma arquitetura e algoritmos, para a construção e manutenção incremental de grafos de dados materializados que representam visualizações RDB2RDF, permitindo a integração semântica de fontes de dados relacionais legadas em Grafos de Conhecimento Corporativo.

Vânia Maria Ponte Vidal (Departamento de Computação, UFC, Fortaleza, Brazil), Valéria Magalhães Pequeno (TechLab, Departamento de Ciências e Tecnologias, UAL, Lisboa, Portugal), Marco Antonio Casanova (Instituto Tecgraf, Puc-Rio, Rio de Janeiro, Brazil), Narciso Arruda (Departamento de Computação, UFC, Fortaleza, Brazil), Carlos Brito (Departamento de Computação, UFC, Fortaleza, Brazil)Mon, 09 Ma💻 cs

Towards Neural Graph Data Management

O artigo apresenta o NGDBench, um benchmark unificado que avalia as capacidades de bancos de dados gráficos neurais em cinco domínios diversos, revelando limitações significativas nos modelos de linguagem atuais ao lidar com a linguagem de consulta Cypher completa e operações complexas de gerenciamento de dados.

Yufei Li, Yisen Gao, Jiaxin Bai, Jiaxuan Xiong, Haoyu Huang, Zhongwei Xie, Hong Ting Tsang, Yangqiu SongMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Este artigo examina os desafios e oportunidades impostos pela rápida evolução da IA na interação humano-dados, destacando a necessidade de redefinir os papéis humanos e de máquina, superar limitações de escalabilidade e incerteza, e integrar princípios cognitivos e de design para construir sistemas analíticos centrados no ser humano na era da inteligência artificial.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Space-efficient B-tree Implementation for Memory-Constrained Flash Embedded Devices

Este trabalho apresenta e avalia experimentalmente variantes de B-trees otimizadas para dispositivos embarcados com restrições de memória, demonstrando que tais otimizações específicas para armazenamento permitem uma indexação eficiente mesmo em equipamentos de borda de pequeno porte.

Nadir Ould-Khessal, Scott Fazackerley, Ramon LawrenceMon, 09 Ma💻 cs

Querying with Conflicts of Interest

Este artigo propõe um novo framework formal e algoritmos eficientes para detectar e mitigar vieses intencionais em resultados de consultas gerados por conflitos de interesse entre fontes de dados e usuários, permitindo a extração de informações relevantes mesmo em cenários onde as fontes priorizam lucros em detrimento da precisão.

Nischal Aryal, Arash Termehchy, Marianne WinslettMon, 09 Ma💻 cs

Efficient Vector Search in the Wild: One Model for Multi-K Queries

O artigo apresenta o OMEGA, um método de busca aprendida que, ao treinar um modelo base apenas para K=1 e aplicar refinamentos dinâmicos, permite atender consultas de múltiplos valores de K com alta precisão e desempenho, reduzindo significativamente o tempo de latência e os custos de pré-processamento em comparação com métodos existentes.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo ChenMon, 09 Ma🤖 cs.LG

Tag-specific Regret Minimization Problem in Outdoor Advertising

Este artigo define e aborda o problema de minimização de arrependimento específico de tags em publicidade outdoor (TRMOA), demonstrando sua complexidade NP-difícil e propondo algoritmos eficazes, como uma abordagem gulosa round-robin justa e métodos de busca local, para otimizar a alocação de anúncios sob restrições orçamentárias.

Dildar Ali, Abishek Salaria, Ansh Jasrotia, Suman BanerjeeMon, 09 Ma💻 cs

CARROT: A Learned Cost-Constrained Retrieval Optimization System for RAG

O artigo apresenta o CARROT, um sistema de otimização de recuperação para RAG que utiliza busca em árvore Monte Carlo e um agente de configuração para selecionar e ordenar blocos de conhecimento de forma adaptativa, maximizando a utilidade dentro de restrições de custo e superando desafios como redundância e utilidade não monotônica.

Ziting Wang, Haitao Yuan, Wei Dong, Gao Cong, Feifei LiFri, 13 Ma💬 cs.CL

Knowledge Distillation with Structured Chain-of-Thought for Text-to-SQL

O artigo apresenta o Struct-SQL, um novo framework de destilação de conhecimento que utiliza planos de execução de consultas como representação de raciocínio estruturado para treinar modelos de linguagem pequenos, resultando em uma melhoria de 8,1% na geração de SQL em comparação com métodos baseados em raciocínio não estruturado.

Khushboo Thaker, Yony BreslerFri, 13 Ma💬 cs.CL

← Anterior Próximo →