A Hypergraph-Based Framework for Exploratory Business Intelligence

Die Arbeit stellt ExBI vor, ein neues System, das mithilfe eines Hypergraphen-Datenmodells und sampling-basierter Algorithmen die Grenzen traditioneller Business-Intelligence-Systeme überwindet, indem es dynamische Schemata ermöglicht und bei gleichbleibend hoher Genauigkeit signifikante Geschwindigkeitsvorteile gegenüber etablierten Datenbanken wie Neo4j und MySQL erzielt.

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution

Das Paper stellt EvoSchema vor, ein umfassendes Benchmark-Tool mit einer neuen Taxonomie von Schema-Änderungen, das die Robustheit von Text-to-SQL-Modellen gegenüber realen Datenbank-Evolutionen bewertet und zeigt, dass Modelle, die auf solchen vielfältigen Schemata trainiert werden, deutlich widerstandsfähiger gegen Leistungsabfall sind.

Tianshu Zhang, Kun Qian, Siddhartha Sahai, Yuan Tian, Shaddy Garg, Huan Sun, Yunyao LiThu, 12 Ma💬 cs.CL

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

Die Arbeit stellt Pneuma-Seeker vor, ein System, das die LLM-basierte Datenanalyse durch die Reifizierung von Benutzeranfragen in ein relationales Schema verbessert, um so die Genauigkeit und Nachvollziehbarkeit bei der Beantwortung unpräziser Informationsbedürfnisse über heterogene Datenquellen zu erhöhen.

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro FernandezThu, 12 Ma💻 cs

Poisson Sampling over Acyclic Joins

Die Arbeit stellt einen nahezu instanzoptimalen Algorithmus für das Poisson-Sampling über azyklische Joins vor, der durch die Kombination eines zufälligen Zugriffsindex und einer Probing-Strategie in Spaltenspeichern eine deutlich höhere Effizienz als herkömmliche Methoden erreicht und gleichzeitig eine einheitliche Grundlage für sowohl klassisches Join-Verarbeitung als auch Sampling bietet.

Liese Bekkers, Frank Neven, Lorrens Pantelis, Stijn VansummerenThu, 12 Ma💻 cs

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

Die Arbeit stellt HCT-QA vor, ein umfassendes Benchmark-Dataset mit tausenden realen und synthetischen menschenzentrierten Tabellen sowie zugehörigen Frage-Antwort-Paaren, um die Leistung von Sprach- und Vision-Sprachmodellen beim Beantworten natürlicher Fragen aus komplexen Tabellendokumenten zu evaluieren und durch Feinabstimmung signifikant zu verbessern.

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-SayehMon, 09 Ma🤖 cs.AI

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Die Arbeit stellt KramaBench vor, einen Benchmark mit 104 manuell erstellten Herausforderungen, der zeigt, dass aktuelle KI-Systeme zwar einzelne Datenaufgaben bewältigen können, aber beim Entwurf und der Ausführung funktionsfähiger End-to-End-Pipelines zur Gewinnung von Erkenntnissen aus komplexen Data Lakes erhebliche Schwierigkeiten haben.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim KraskaMon, 09 Ma🤖 cs.AI

Efficient Query Rewrite Rule Discovery via Standardized Enumeration and Learning-to-Rank(extend)

Die Arbeit stellt SLER vor, ein skalierbares System, das durch die Kombination standardisierter Template-Enumeration mit einem Learning-to-Rank-Ansatz effizient über eine Million effiziente Abfrage-Umschreibungsregeln für komplexe Datenbankabfragen automatisch entdeckt und dabei die Suchräume drastisch reduziert.

Yuan Zhang, Yuxing Chen, Yuekun Yu, Jinbin Huang, Rui Mao, Anqun Pan, Lixiong Zheng, Jianbin QinMon, 09 Ma💻 cs

Publication and Maintenance of Relational Data in Enterprise Knowledge Graphs (Revised Version)

Dieser Artikel stellt einen formalen Rahmen sowie eine Architektur und Algorithmen vor, um materialisierte RDF-Sichten über relationalen Unternehmensdaten zu konstruieren und inkrementell zu pflegen, um so eine semantisch integrierte Datenlage für Enterprise-Knowledge-Graphen zu gewährleisten.

Vânia Maria Ponte Vidal (Departamento de Computação, UFC, Fortaleza, Brazil), Valéria Magalhães Pequeno (TechLab, Departamento de Ciências e Tecnologias, UAL, Lisboa, Portugal), Marco Antonio Casanova (Instituto Tecgraf, Puc-Rio, Rio de Janeiro, Brazil), Narciso Arruda (Departamento de Computação, UFC, Fortaleza, Brazil), Carlos Brito (Departamento de Computação, UFC, Fortaleza, Brazil)Mon, 09 Ma💻 cs

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Diese Arbeit untersucht die durch KI-Entwicklungen ausgelösten Herausforderungen und Chancen für die Mensch-Daten-Interaktion, indem sie bestehende Grenzen in Bezug auf Unsicherheit, Skalierbarkeit und Interpretierbarkeit aufzeigt und einen Paradigmenwechsel hin zu kognitiv und wahrnehmungsorientierten, menschzentrierten Systemen für die Datenanalyse fordert.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Die Arbeit stellt OMEGA vor, eine effiziente Methode für das Lernen von Top-K-Suchen, die mit einem einzigen, auf K=1 trainierten Modell und einem dynamischen Verfeinerungsprozess sowohl hohe Genauigkeit als auch Leistung bei variierenden K-Werten erreicht und dabei die Vorverarbeitungszeit im Vergleich zu bestehenden Methoden drastisch reduziert.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo ChenMon, 09 Ma🤖 cs.LG

Numerical benchmark for damage identification in Structural Health Monitoring

Dieses Paper stellt einen offenen, synthetischen Datensatz für das Structural Health Monitoring vor, der auf einem numerischen Modell eines eingespannten Stahlträgers basiert und realistische Szenarien wie Umwelteinflüsse, Schäden und Sensorfehler abdeckt, um die Validierung datengetriebener Schadensidentifikationsmethoden zu ermöglichen.

Francesca Marafini, Giacomo Zini, Alberto Barontini, Nuno Mendes, Alice Cicirello, Michele Betti, Gianni BartoliFri, 13 Ma⚡ eess