cs.DB Arbeiten | Gist.Science

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

Die Arbeit stellt R4-CGQA vor, ein retrieval-basiertes Framework für Vision-Language-Modelle, das durch die Einführung eines neuen Datensatzes mit sechs Qualitätsdimensionen und einer zweistromigen Abrufarchitektur die Bewertung und textbasierte Erklärung der Bildqualität von Computergrafiken signifikant verbessert.

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi LinThu, 12 Ma💻 cs

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Die Arbeit stellt einen neuen Rahmen vor, der durch die semantische Analyse von Agenten-Executionspfaden und die Generierung kontextspezifischer Lernhinweise die Fähigkeit von LLM-Agenten zur Selbstverbesserung durch gezieltes Abrufen von Erfahrungswissen signifikant steigert.

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi ThomasThu, 12 Ma🤖 cs.AI

A Hypergraph-Based Framework for Exploratory Business Intelligence

Die Arbeit stellt ExBI vor, ein neues System, das mithilfe eines Hypergraphen-Datenmodells und sampling-basierter Algorithmen die Grenzen traditioneller Business-Intelligence-Systeme überwindet, indem es dynamische Schemata ermöglicht und bei gleichbleibend hoher Genauigkeit signifikante Geschwindigkeitsvorteile gegenüber etablierten Datenbanken wie Neo4j und MySQL erzielt.

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution

Das Paper stellt EvoSchema vor, ein umfassendes Benchmark-Tool mit einer neuen Taxonomie von Schema-Änderungen, das die Robustheit von Text-to-SQL-Modellen gegenüber realen Datenbank-Evolutionen bewertet und zeigt, dass Modelle, die auf solchen vielfältigen Schemata trainiert werden, deutlich widerstandsfähiger gegen Leistungsabfall sind.

Tianshu Zhang, Kun Qian, Siddhartha Sahai, Yuan Tian, Shaddy Garg, Huan Sun, Yunyao LiThu, 12 Ma💬 cs.CL

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

Die Arbeit stellt Pneuma-Seeker vor, ein System, das die LLM-basierte Datenanalyse durch die Reifizierung von Benutzeranfragen in ein relationales Schema verbessert, um so die Genauigkeit und Nachvollziehbarkeit bei der Beantwortung unpräziser Informationsbedürfnisse über heterogene Datenquellen zu erhöhen.

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro FernandezThu, 12 Ma💻 cs

Beyond Standard Datacubes: Extracting Features from Irregular and Branching Earth System Data

Dieser Artikel stellt eine generalisierte Datenhyperwürfel-Repräsentation auf Basis komprimierter Baumstrukturen vor, die in Kombination mit dem Polytope-Framework eine effiziente und flexible Merkmalsextraktion aus komplexen, unregelmäßigen und verzweigten Erdbeobachtungsdatensätzen ermöglicht.

Mathilde Leuridan, James Hawkes, Tiago Quintino, Martin SchultzThu, 12 Ma💻 cs

Poisson Sampling over Acyclic Joins

Die Arbeit stellt einen nahezu instanzoptimalen Algorithmus für das Poisson-Sampling über azyklische Joins vor, der durch die Kombination eines zufälligen Zugriffsindex und einer Probing-Strategie in Spaltenspeichern eine deutlich höhere Effizienz als herkömmliche Methoden erreicht und gleichzeitig eine einheitliche Grundlage für sowohl klassisches Join-Verarbeitung als auch Sampling bietet.

Liese Bekkers, Frank Neven, Lorrens Pantelis, Stijn VansummerenThu, 12 Ma💻 cs

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

Die Arbeit stellt HCT-QA vor, ein umfassendes Benchmark-Dataset mit tausenden realen und synthetischen menschenzentrierten Tabellen sowie zugehörigen Frage-Antwort-Paaren, um die Leistung von Sprach- und Vision-Sprachmodellen beim Beantworten natürlicher Fragen aus komplexen Tabellendokumenten zu evaluieren und durch Feinabstimmung signifikant zu verbessern.

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-SayehMon, 09 Ma🤖 cs.AI

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Die Arbeit stellt KramaBench vor, einen Benchmark mit 104 manuell erstellten Herausforderungen, der zeigt, dass aktuelle KI-Systeme zwar einzelne Datenaufgaben bewältigen können, aber beim Entwurf und der Ausführung funktionsfähiger End-to-End-Pipelines zur Gewinnung von Erkenntnissen aus komplexen Data Lakes erhebliche Schwierigkeiten haben.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim KraskaMon, 09 Ma🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Diese Studie führt neue Metriken für „Text-to-Big SQL" ein, um zu zeigen, dass herkömmliche Text-to-SQL-Benchmarks die Kosten- und Leistungsauswirkungen von LLM-Agenten bei großen Datenmengen nicht erfassen, und bietet detaillierte Einblicke in die Effizienz frontier-Modelle.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-ArtigasMon, 09 Ma💬 cs.CL

Efficient Query Rewrite Rule Discovery via Standardized Enumeration and Learning-to-Rank(extend)

Die Arbeit stellt SLER vor, ein skalierbares System, das durch die Kombination standardisierter Template-Enumeration mit einem Learning-to-Rank-Ansatz effizient über eine Million effiziente Abfrage-Umschreibungsregeln für komplexe Datenbankabfragen automatisch entdeckt und dabei die Suchräume drastisch reduziert.

Yuan Zhang, Yuxing Chen, Yuekun Yu, Jinbin Huang, Rui Mao, Anqun Pan, Lixiong Zheng, Jianbin QinMon, 09 Ma💻 cs

Publication and Maintenance of Relational Data in Enterprise Knowledge Graphs (Revised Version)

Dieser Artikel stellt einen formalen Rahmen sowie eine Architektur und Algorithmen vor, um materialisierte RDF-Sichten über relationalen Unternehmensdaten zu konstruieren und inkrementell zu pflegen, um so eine semantisch integrierte Datenlage für Enterprise-Knowledge-Graphen zu gewährleisten.

Vânia Maria Ponte Vidal (Departamento de Computação, UFC, Fortaleza, Brazil), Valéria Magalhães Pequeno (TechLab, Departamento de Ciências e Tecnologias, UAL, Lisboa, Portugal), Marco Antonio Casanova (Instituto Tecgraf, Puc-Rio, Rio de Janeiro, Brazil), Narciso Arruda (Departamento de Computação, UFC, Fortaleza, Brazil), Carlos Brito (Departamento de Computação, UFC, Fortaleza, Brazil)Mon, 09 Ma💻 cs

Towards Neural Graph Data Management

Die Arbeit stellt NGDBench vor, ein umfassendes Benchmark-System, das die Fähigkeiten neuronaler Modelle bei der Verarbeitung komplexer Graphdatenbanken mittels der Cypher-Abfragesprache bewertet und dabei erhebliche Defizite in Bezug auf strukturiertes Schlussfolgern und Rauschrobustheit aufzeigt.

Yufei Li, Yisen Gao, Jiaxin Bai, Jiaxuan Xiong, Haoyu Huang, Zhongwei Xie, Hong Ting Tsang, Yangqiu SongMon, 09 Ma🤖 cs.AI

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Diese Arbeit untersucht die durch KI-Entwicklungen ausgelösten Herausforderungen und Chancen für die Mensch-Daten-Interaktion, indem sie bestehende Grenzen in Bezug auf Unsicherheit, Skalierbarkeit und Interpretierbarkeit aufzeigt und einen Paradigmenwechsel hin zu kognitiv und wahrnehmungsorientierten, menschzentrierten Systemen für die Datenanalyse fordert.

Jean-Daniel Fekete, Yifan Hu, Dominik Moritz, Arnab Nandi, Senjuti Basu Roy, Eugene Wu, Nikos Bikakis, George Papastefanatos, Panos K. Chrysanthis, Guoliang Li, Lingyun YuMon, 09 Ma🤖 cs.AI

Space-efficient B-tree Implementation for Memory-Constrained Flash Embedded Devices

Diese Arbeit stellt und evaluiert speichereffiziente B-Baum-Varianten für ressourcenbeschränkte Flash-Embedded-Geräte, die eine effiziente On-Device-Datenverarbeitung im IoT-Kontext ermöglichen.

Nadir Ould-Khessal, Scott Fazackerley, Ramon LawrenceMon, 09 Ma💻 cs

Querying with Conflicts of Interest

Dieses Papier stellt ein formales Rahmenwerk und effiziente Algorithmen vor, um in Umgebungen mit Interessenkonflikten zwischen Datenquellen und Nutzern verzerrte Suchergebnisse zu erkennen und durch Query-Reformulierung relevante Informationen trotz absichtlicher Verzerrung zu extrahieren.

Nischal Aryal, Arash Termehchy, Marianne WinslettMon, 09 Ma💻 cs

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Die Arbeit stellt OMEGA vor, eine effiziente Methode für das Lernen von Top-K-Suchen, die mit einem einzigen, auf K=1 trainierten Modell und einem dynamischen Verfeinerungsprozess sowohl hohe Genauigkeit als auch Leistung bei variierenden K-Werten erreicht und dabei die Vorverarbeitungszeit im Vergleich zu bestehenden Methoden drastisch reduziert.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo ChenMon, 09 Ma🤖 cs.LG

Tag-specific Regret Minimization Problem in Outdoor Advertising

Diese Arbeit stellt das NP-schwere Problem der tag-spezifischen Reue-Minimierung im Außenwerbung (TRMOA) vor, das durch die Zuteilung von Werbeinhalten unter Budget- und Nachfragebeschränkungen gelöst wird, und schlägt dafür faire Greedy- und lokale Suchalgorithmen vor, deren Wirksamkeit anhand realer Datensätze nachgewiesen wurde.

Dildar Ali, Abishek Salaria, Ansh Jasrotia, Suman BanerjeeMon, 09 Ma💻 cs

Numerical benchmark for damage identification in Structural Health Monitoring

Dieses Paper stellt einen offenen, synthetischen Datensatz für das Structural Health Monitoring vor, der auf einem numerischen Modell eines eingespannten Stahlträgers basiert und realistische Szenarien wie Umwelteinflüsse, Schäden und Sensorfehler abdeckt, um die Validierung datengetriebener Schadensidentifikationsmethoden zu ermöglichen.

Francesca Marafini, Giacomo Zini, Alberto Barontini, Nuno Mendes, Alice Cicirello, Michele Betti, Gianni BartoliFri, 13 Ma⚡ eess

The Case for Cardinality Lower Bounds

Die Arbeit stellt mit xBound das erste theoretische Framework zur Berechnung beweisbarer unterer Schranken für Join-Größen vor, um das kritische Problem der systematischen Unterschätzung in Datenbank-Optimierern zu adressieren und damit in industriellen Systemen wie Microsoft Fabric signifikante Leistungssteigerungen zu erzielen.

Mihail Stoian, Tiemo Bang, Hangdong Zhao + 3 more2026-03-06🔢 math

← Zurück Weiter →