cs.DB articles | Gist.Science

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

Ce papier propose R4-CGQA, un cadre à deux flux basé sur la récupération qui améliore l'évaluation de la qualité des images de graphisme informatique par les modèles vision-langage en s'appuyant sur un nouveau jeu de données annoté et des descriptions visuellement similaires pour fournir des jugements précis et explicables.

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi LinThu, 12 Ma💻 cs

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Cet article présente un cadre novateur permettant aux agents autonomes pilotés par des LLM d'améliorer leurs performances futures en extrayant automatiquement des enseignements structurés de leurs trajectoires d'exécution pour les intégrer dynamiquement dans leur contexte via une mémoire adaptative.

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi ThomasThu, 12 Ma🤖 cs.AI

A Hypergraph-Based Framework for Exploratory Business Intelligence

Ce papier présente ExBI, un nouveau système d'intelligence d'affaires exploratoire basé sur un modèle de données hypergraphe et des algorithmes d'échantillonnage, qui surpasse significativement les systèmes traditionnels en termes de vitesse et de réutilisabilité tout en maintenant une grande précision analytique.

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution

Le papier présente EvoSchema, une nouvelle benchmark et une taxonomie d'évolution de schéma conçues pour évaluer et améliorer la robustesse des modèles Text-to-SQL face aux changements dynamiques des bases de données, révélant notamment l'impact critique des modifications au niveau des tables.

Tianshu Zhang, Kun Qian, Siddhartha Sahai, Yuan Tian, Shaddy Garg, Huan Sun, Yunyao LiThu, 12 Ma💬 cs.CL

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

Le papier présente Pneuma-Seeker, un système qui aligne les agents d'IA sur les besoins humains en matière de données relationnelles en représentant l'intention de l'utilisateur sous forme de schéma relationnel évolutif et en l'affinant itérativement pour générer des réponses précises et inspectables, surpassant ainsi les approches basées sur les LLM traditionnels.

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro FernandezThu, 12 Ma💻 cs

Beyond Standard Datacubes: Extracting Features from Irregular and Branching Earth System Data

Cet article propose une représentation généralisée de datacubes sous forme d'arbres compressés au sein du framework Polytope, permettant une extraction de caractéristiques efficace et flexible pour des données terrestres complexes, irrégulières et hiérarchiques que les modèles traditionnels peinent à gérer.

Mathilde Leuridan, James Hawkes, Tiago Quintino, Martin SchultzThu, 12 Ma💻 cs

Poisson Sampling over Acyclic Joins

Cet article présente un algorithme presque instance-optimal pour l'échantillonnage de Poisson sur des jointures acycliques, qui combine un index d'accès aléatoire et une sonde pour surpasser les méthodes classiques tout en offrant une base unifiée pour le traitement des jointures et l'échantillonnage dans les moteurs de requêtes.

Liese Bekkers, Frank Neven, Lorrens Pantelis, Stijn VansummerenThu, 12 Ma💻 cs

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

Ce papier présente HCT-QA, un nouveau benchmark complet pour l'évaluation des modèles de question-réponse sur des tableaux centrés sur l'humain (HCT) aux structures complexes, incluant un vaste ensemble de données réelles et synthétiques ainsi que des résultats d'expérimentation démontrant l'efficacité du fine-tuning.

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-SayehMon, 09 Ma🤖 cs.AI

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Ce papier présente KramaBench, un benchmark composé de 104 défis réels sur des lacs de données, qui révèle que les systèmes d'IA actuels, bien que capables de générer des pipelines plausibles, échouent encore majoritairement à produire des pipelines de bout en bout fonctionnels, n'atteignant qu'une précision de 55 % dans ce contexte complexe.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim KraskaMon, 09 Ma🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Ce papier introduit de nouvelles métriques pour évaluer les agents LLM dans le contexte du « Text-to-Big SQL », démontrant que les mesures traditionnelles de Text-to-SQL sont insuffisantes pour capturer les impacts réels de l'échelle des données sur les coûts, la latence et l'efficacité d'exécution.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-ArtigasMon, 09 Ma💬 cs.CL

Efficient Query Rewrite Rule Discovery via Standardized Enumeration and Learning-to-Rank(extend)

Le système SLER présente une approche évolutive pour la découverte de règles de réécriture de requêtes en combinant l'énumération de modèles standardisés et un apprentissage par classement, permettant de générer une bibliothèque de plus d'un million de règles et de gérer des plans de requêtes complexes jusqu'à une profondeur de niveau canal.

Yuan Zhang, Yuxing Chen, Yuekun Yu, Jinbin Huang, Rui Mao, Anqun Pan, Lixiong Zheng, Jianbin QinMon, 09 Ma💻 cs

Publication and Maintenance of Relational Data in Enterprise Knowledge Graphs (Revised Version)

Cet article propose un cadre formel, ainsi qu'une architecture et des algorithmes, pour construire et maintenir de manière incrémentale une vue RDB2RDF matérialisée, permettant ainsi d'intégrer et d'accéder sémantiquement aux sources de données relationnelles héritées au sein des graphes de connaissances d'entreprise.

Vânia Maria Ponte Vidal (Departamento de Computação, UFC, Fortaleza, Brazil), Valéria Magalhães Pequeno (TechLab, Departamento de Ciências e Tecnologias, UAL, Lisboa, Portugal), Marco Antonio Casanova (Instituto Tecgraf, Puc-Rio, Rio de Janeiro, Brazil), Narciso Arruda (Departamento de Computação, UFC, Fortaleza, Brazil), Carlos Brito (Departamento de Computação, UFC, Fortaleza, Brazil)Mon, 09 Ma💻 cs

Towards Neural Graph Data Management

Ce papier présente NGDBench, un benchmark unifié évaluant les capacités des modèles neuronaux à gérer des bases de données graphiques via le langage Cypher complet, révélant ainsi les limites actuelles des LLMs et des méthodes RAG dans le raisonnement structuré.

Yufei Li, Yisen Gao, Jiaxin Bai, Jiaxuan Xiong, Haoyu Huang, Zhongwei Xie, Hong Ting Tsang, Yangqiu SongMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Cet article examine comment l'avancement rapide de l'IA, notamment les modèles de fondation, transforme l'interaction humain-données en introduisant de nouveaux défis liés à l'incertitude et à l'échelle, et propose de redéfinir les paradigmes d'interaction en intégrant des principes cognitifs et perceptuels pour bâtir des systèmes d'analyse de données centrés sur l'humain.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Space-efficient B-tree Implementation for Memory-Constrained Flash Embedded Devices

Ce papier présente et évalue expérimentalement plusieurs variantes d'arbres B optimisées pour l'indexation efficace sur des dispositifs embarqués à mémoire limitée, démontrant l'avantage significatif des optimisations spécifiques au stockage flash dans le contexte de l'Internet des Objets.

Nadir Ould-Khessal, Scott Fazackerley, Ramon LawrenceMon, 09 Ma💻 cs

Querying with Conflicts of Interest

Cet article propose un cadre formel et des algorithmes efficaces pour détecter et atténuer les biais intentionnels introduits par des sources de données en conflit d'intérêts avec leurs utilisateurs, permettant ainsi d'extraire des informations pertinentes malgré ces manipulations.

Nischal Aryal, Arash Termehchy, Marianne WinslettMon, 09 Ma💻 cs

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Le papier présente OMEGA, une méthode de recherche apprise généralisable à n'importe quel K qui, en s'entraînant uniquement sur K=1 et en utilisant un raffinement dynamique, surpasse les méthodes existantes en termes de latence et de temps de prétraitement tout en maintenant une haute précision pour des requêtes multi-K.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo ChenMon, 09 Ma🤖 cs.LG

Tag-specific Regret Minimization Problem in Outdoor Advertising

Cet article propose et évalue de nouvelles heuristiques, notamment une approche gourmande équitable et des algorithmes de recherche locale, pour résoudre le problème NP-difficile de minimisation des regrets spécifiques aux tags dans la publicité extérieure, en optimisant l'allocation des budgets et de la demande d'influence sur des données réelles.

Dildar Ali, Abishek Salaria, Ansh Jasrotia, Suman BanerjeeMon, 09 Ma💻 cs

Numerical benchmark for damage identification in Structural Health Monitoring

Cet article présente un jeu de données numérique open source et reproductible pour le suivi de l'intégrité structurelle, générant des mesures dynamiques et statiques simulées sur une poutre en acier afin d'inclure des variations environnementales, des dommages et des bruits, offrant ainsi une ressource précieuse pour valider de nouvelles stratégies de détection de dommages.

Francesca Marafini, Giacomo Zini, Alberto Barontini, Nuno Mendes, Alice Cicirello, Michele Betti, Gianni BartoliFri, 13 Ma⚡ eess

The Case for Cardinality Lower Bounds

Cet article présente xBound, un cadre théorique novateur calculant des bornes inférieures prouvables pour les tailles de jointures afin de corriger les sous-estimations critiques des estimateurs de cardinalité dans les systèmes de base de données industriels, démontrant ainsi des gains de performance significatifs sur la plateforme Fabric DW de Microsoft.

Mihail Stoian, Tiemo Bang, Hangdong Zhao + 3 more2026-03-06🔢 math

← Précédent Suivant →