cs.DB Arbeiten | Gist.Science

Fine-Grained Table Retrieval Through the Lens of Complex Queries

Die Arbeit stellt einen neuen Tabellenretrieval-Mechanismus namens DCTR vor, der durch feingranulare, typisierte Query-Zerlegung und globale Konnektivitätsbewusstheit die Herausforderungen des offenen Fragebeantwortens über komplexe relationale Datenbanken bewältigt und sich in Benchmarks als robust erweist.

Wojciech Kosiuk, Xingyu Ji, Yeounoh Chung, Fatma Özcan, Madelon HulsebosTue, 10 Ma💬 cs.CL

Novel Table Search [Technical Report]

Diese Arbeit definiert das Problem der Suche nach neuen Tabellen (Novel Table Search) in Data Lakes, schlägt einen NP-schweren Optimierungsansatz vor und entwickelt mit ANTs eine effiziente Approximation, die in Experimenten andere Methoden bei der Erfassung syntaktischer Neuheit und der Ausführungszeit übertrifft.

Besat Kassaie, Renée J. MillerTue, 10 Ma💻 cs

Sketch-Oriented Databases

Diese Arbeit stellt einen kategorischen Rahmen für skizzenorientierte Datenbanken vor, der Datenbankparadigmen als endliche Limit-Skizzen und Datenbanken als mengentheoretische Modelle formalisiert, um Graphenfeatures einheitlich zu erfassen, Pfade über lokale Inferenzregeln zu berechnen und durch „Stuttering-Skizzen" eine modulare Komposition sowie skalierbares Modellwachstum zu ermöglichen.

Dominique Duval, Rachid EchahedTue, 10 Ma💻 cs

LLM-FK: Multi-Agent LLM Reasoning for Foreign Key Detection in Large-Scale Complex Databases

Die Arbeit stellt LLM-FK vor, ein vollständig automatisiertes Multi-Agenten-Framework, das mithilfe spezialisierter Agenten die Erkennung fehlender Fremdschlüssel in großen, komplexen Datenbanken durch effiziente Suchraumreduktion und konsistente mehrstufige Schlussfolgerung revolutioniert und dabei signifikant höhere Genauigkeit als bestehende Methoden erreicht.

Zijian Tang, Ying Zhang, Sibo Cai, Ruoxuan WangTue, 10 Ma💻 cs

Tursio for Credit Unions: Powering Structured Data Search with Automated Context Graph

Das Paper stellt Tursio vor, eine sichere, lokale Plattform für Kreditgenossenschaften, die mithilfe von Large Language Models und einem automatisch generierten semantischen Wissensgraphen natürliche Sprachabfragen in präzise, konforme Datenbankabfragen umwandelt, um komplexe Datenstrukturen für Geschäftsanwender zugänglich zu machen.

Shivani Tripathi, Ravi Shetye, Shi Qiao, Alekh JindalTue, 10 Ma💻 cs

Enhancing OLAP Resilience at LinkedIn

Die Arbeit stellt einen umfassenden Resilienzrahmen für Apache Pinot bei LinkedIn vor, der durch Mechanismen wie Query Workload Isolation, impactfreie Rebalancing-Prozesse, Wartungszone-Bewusstsein und adaptive Serverauswahl subsekundäre Latenzen und hohe Verfügbarkeit auch bei Ausfällen und Lastspitzen gewährleistet.

Praveen Chaganlal, Jia Guo, Vivek Vaidyanathan, Dino Occhialini, Sonam Mandal, Subbu Subramaniam, Siddharth Teotia, Tianqi Li, Xiaxuan Gao, Florence ZhangTue, 10 Ma💻 cs

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Die Arbeit stellt Dial vor, ein wissensbasiertes Framework für dialektspezifische NL2SQL-Übersetzungen, das durch eine dialektsensible logische Abfrageplanung, eine hierarchische Wissensdatenbank und einen ausführungsbasierten Debugging-Prozess die Genauigkeit und Abdeckung von Datenbankdialekten im Vergleich zu bestehenden Methoden signifikant verbessert.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

Die Arbeit stellt GP-Tree vor, einen neuen in-Memory-Raumindex, der feinkörnige Gitterzellen in einer Präfixbaumstruktur organisiert und durch Optimierungsstrategien wie das Beschneiden von Bäumen die Abfrageeffizienz für komplexe räumliche Daten im Vergleich zu traditionellen Indizes um eine Größenordnung verbessert.

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Structured Gossip: A Partition-Resilient DNS for Internet-Scale Dynamic Networks

Die Arbeit stellt „Structured Gossip DNS" vor, ein partitionstolerantes DNS-System für Internet-Skala, das durch die Nutzung von DHT-Fingertabellen und passiver Stabilisierung die Nachrichtenkomplexität auf $O(n/\log n)$ reduziert und dabei ohne globale Koordination eine eventual consistency gewährleistet.

Priyanka Sinha, Dilys ThomasTue, 10 Ma💻 cs

Rel-MOSS: Towards Imbalanced Relational Deep Learning on Relational Databases

Die Arbeit stellt Rel-MOSS vor, einen neuartigen Graph-Neural-Network-Ansatz, der durch relationsspezifische Gating-Mechanismen und eine geführte Überabtastung das Problem des Klassenungleichgewichts bei der Entitätsklassifizierung in relationalen Datenbanken adressiert und damit die Leistung bestehender Methoden signifikant verbessert.

Jun Yin, Peng Huo, Bangguo Zhu, Hao Yan, Senzhang Wang, Shirui Pan, Chengqi ZhangTue, 10 Ma🤖 cs.LG

Decomposition-Driven Multi-Table Retrieval and Reasoning for Numerical Question Answering

Die Arbeit stellt DMRAL vor, ein dekompositionsgetriebenes Framework zur Beantwortung numerischer Fragen über große Tabellenkollektionen, das durch die Konstruktion eines Tabellengraphen, eine abgestimmte Fragezerlegung mit abdeckungsbewusstem Abruf sowie einen subfragegesteuerten Reasoner die Grenzen bestehender Methoden in Bezug auf komplexe Tabellenbeziehungen, Skalierbarkeit und Antwortgenauigkeit überwindet.

Feng Luo, Hai Lan, Hui Luo, Zhifeng Bao, Xiaoli Wang, J. Shane Culpepper, Shazia SadiqTue, 10 Ma💻 cs

Samyama: A Unified Graph-Vector Database with In-Database Optimization, Agentic Enrichment, and Hardware Acceleration

Die Arbeit stellt Samyama vor, eine in Rust entwickelte, hochperformante Graph-Vector-Datenbank, die Graphenverarbeitung, Vektorsuche, analytische Abfragen und Metaheuristik-Optimierung in einer einzigen Engine mit In-Database-Optimierung, agentischer Anreicherung und Hardware-Beschleunigung vereint, um komplexe Datenpipelines zu eliminieren und gleichzeitig hohe Leistung auf Standardhardware zu gewährleisten.

Madhulatha Mandarapu, Sandeep KunkunuruTue, 10 Ma💻 cs

CEMR: An Effective Subgraph Matching Algorithm with Redundant Extension Elimination

Die Arbeit stellt CEMR vor, einen effizienten Algorithmus für das Untergraphen-Matching, der durch Techniken zur Eliminierung redundanter Erweiterungen und gezieltes Beschneiden der Suchbäume die Leistung bestehender Methoden signifikant verbessert.

Linglin Yang, Xunbin Su, Lei Zou, Xiangyang Gou, Yinnian LinTue, 10 Ma💻 cs

PRIME: Efficient Algorithm for Token Graph Routing Problem

Die Arbeit stellt PRIME vor, einen effizienten Zwei-Phasen-Algorithmus zur Lösung des Token-Graph-Routing-Problems in dezentralen Märkten, der durch eine Kombination aus gefilterter Pfadsuche und einer neuartigen Optimierungsmethode (ASGM) die Ausführungspreise im Vergleich zu bestehenden Lösungen wie Uniswap signifikant verbessert und die Rechenzeit drastisch reduziert.

Haotian Xu, Yuqing Zhu, Yuming Huang, Jing TangTue, 10 Ma💻 cs

LLM-Driven Online Aggregation for Unstructured Text Analytics

Die Arbeit stellt OLLA vor, ein Framework, das Large Language Models mit Online-Aggregation und semantischer geschichteter Stichprobenziehung kombiniert, um die Echtzeit-Analyse unstrukturierter Textdaten durch progressive Ausgabe und signifikante Beschleunigung im Vergleich zur vollständigen Datenverarbeitung zu ermöglichen.

Chao Hui, Weizheng Lu, Yanjie Gao, Lingfeng Xiong, Yunhai Wang, Yueguo ChenTue, 10 Ma💻 cs

Direct Access for Conjunctive Queries with Negations

Diese Arbeit verallgemeinert die Ergebnisse zur direkten Zugriffbarkeit von konjunktiven Abfragen auf den Fall negierter Atome, indem sie eine auf Schaltkreisen basierende Technik entwickelt, die für eine große Klasse von Abfragen – einschließlich $\beta$ -azyklischer und solcher mit beschränkter Nest-Set-Breite – eine effiziente direkte Zugriffsmöglichkeit nach polynomialer Vorverarbeitung ermöglicht.

Florent Capelli, Nofar Carmeli, Oliver Irwin, Sylvain SalvatiThu, 12 Ma💻 cs

Categorical Calculus and Algebra for Multi-Model Data

Die Arbeit stellt mit dem kategorischen Kalkül und der kategorischen Algebra zwei äquivalente formale Abfragesprachen für Multi-Model-Datenbanken vor, analysiert deren Ausdruckskraft und Berechnungskomplexität und schlägt Transformationsregeln zur Abfrageoptimierung vor.

Jiaheng Lu (University of Helsinki)Thu, 12 Ma💻 cs

K-Join: Combining Vertex Covers for Parallel Joins

Die Arbeit stellt einen neuen parallelen Join-Algorithmus vor, der durch die geschickte Kombination von Vertex Covers und dem HyperCube-Primitiv eine Last von $n/p^{1/\kappa}$ erreicht und dabei den neu eingeführten hypergraphentheoretischen Maßstab „reduced quasi vertex-cover" nutzt, um den aktuellen Stand der Technik zu übertreffen.

Simon Frisk, Austen Fan, Paraschos KoutrisThu, 12 Ma💻 cs

HiFIVE: High-Fidelity Vector-Tile Reduction for Interactive Map Exploration

Die Arbeit stellt HiFIVE vor, ein Datenmanagement-Framework, das durch eine zweistufige Lösung aus Triage und Sparsifizierung die Dateigröße von Vektorkacheln für interaktive Kartenanwendungen signifikant reduziert, während die visuelle Genauigkeit und Leistungsfähigkeit auch im Terabyte-Maßstab erhalten bleiben.

Tarlan Bahadori, Ahmed EldawyThu, 12 Ma💻 cs

Effective Dataset Distillation for Spatio-Temporal Forecasting with Bi-dimensional Compression

Die Arbeit stellt STemDist vor, die erste Dataset-Distillationsmethode für die spatio-temporale Vorhersage, die durch eine ausgewogene zweidimensionale Kompression von Raum und Zeit sowie eine Cluster-basierte Verfeinerung die Trainingszeit und den Speicherbedarf signifikant reduziert und gleichzeitig die Vorhersagegenauigkeit verbessert.

Taehyung Kwon, Yeonje Choi, Yeongho Kim, Kijung ShinThu, 12 Ma🤖 cs.LG

← Zurück Weiter →