cs.DB 篇论文 | Gist.Science

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

该论文针对现有计算机图形图像质量评估缺乏系统描述和文本解释的问题，构建了一个包含 3500 张图像及多维质量描述的新数据集，并提出了基于检索增强生成的双流框架（R4-CGQA），显著提升了视觉语言模型在细粒度 CG 质量评估中的准确性与解释能力。

Zhuangzi Li, Jian Jin, Shilv Cai, Weisi LinThu, 12 Ma💻 cs

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

该论文提出了一种名为“轨迹感知记忆生成”的新框架，通过从智能体执行轨迹中提取策略、恢复和优化等结构化经验，并利用自适应检索将其注入提示，从而显著提升智能体在复杂任务中的自我改进能力与目标完成率。

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi ThomasThu, 12 Ma🤖 cs.AI

A Hypergraph-Based Framework for Exploratory Business Intelligence

本文提出了名为 ExBI 的新型系统，通过引入基于超图的数据模型、支持动态模式演化的算子以及具有理论保证的采样算法，有效解决了传统商业智能系统在探索性分析中面临的计算瓶颈与静态架构限制，在 LDBC 数据集上实现了远超 Neo4j 和 MySQL 的查询加速效果（平均 16.21 倍至 46.67 倍），同时保持了极高的分析精度（COUNT 平均误差仅 0.27%）。

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution

本文提出了 EvoSchema 基准，通过引入涵盖十种列级和表级扰动的新颖模式演化分类法，系统评估并提升了文本转 SQL 模型在真实世界数据库模式动态变化下的鲁棒性。

Tianshu Zhang, Kun Qian, Siddhartha Sahai, Yuan Tian, Shaddy Garg, Huan Sun, Yunyao LiThu, 12 Ma💬 cs.CL

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

本文介绍了 Pneuma-Seeker 系统，该系统通过“关系具体化”机制将用户模糊的信息需求迭代转化为共享的关系模式，并利用 LLM 智能体架构在异构数据上发现源数据并生成可执行程序，从而有效解决了大模型在处理未明确定义意图时的脆弱性问题，显著提升了答案准确性与系统的可解释性。

Muhammad Imam Luthfi Balaka, John Hillesland, Kemal Badur, Raul Castro FernandezThu, 12 Ma💻 cs

Beyond Standard Datacubes: Extracting Features from Irregular and Branching Earth System Data

本文提出了一种基于压缩树结构的广义数据超立方表示法，并构建了集成特征提取系统，以高效处理地球科学中不规则、稀疏及分支的复杂数据集，从而弥补了传统数据立方模型在表达复杂数据空间与实现高效访问方面的不足。

Mathilde Leuridan, James Hawkes, Tiago Quintino, Martin SchultzThu, 12 Ma💻 cs

Poisson Sampling over Acyclic Joins

该论文提出了一种针对无环连接查询的泊松采样算法，通过构建随机访问索引和探测机制，在无需完全物化连接结果的情况下实现了近乎实例最优的高效采样，并证明该方法在列式存储中不仅显著优于传统重采样算法，还能作为统一基础高效支持经典无环连接处理。

Liese Bekkers, Frank Neven, Lorrens Pantelis, Stijn VansummerenThu, 12 Ma💻 cs

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

本文提出了 HCT-QA 基准，这是一个包含真实与合成人类中心表格及海量问答对的大规模数据集，旨在解决现有方法难以处理复杂表格布局及缺乏自然语言查询评估标准的问题，并验证了微调模型在该任务上的显著性能提升。

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-SayehMon, 09 Ma🤖 cs.AI

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

本文提出了 KramaBench，一个包含 104 个真实数据湖挑战的基准测试，旨在评估 AI 系统在端到端数据洞察流程中的能力，研究发现尽管现有大模型能识别部分任务，但在生成可运行的完整端到端管道方面表现仍十分有限。

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim KraskaMon, 09 Ma🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

该论文指出传统 Text-to-SQL 指标无法评估大规模数据场景下的成本与性能开销，因此提出了针对“文本转大数据 SQL"的新评估体系，并通过实验证明现有指标在大规模数据下存在不足，而新指标能更准确地反映执行效率、成本及数据规模的影响。

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-ArtigasMon, 09 Ma💬 cs.CL

Efficient Query Rewrite Rule Discovery via Standardized Enumeration and Learning-to-Rank(extend)

本文提出了 SLER 系统，通过结合标准化模板枚举与学习排序技术，有效解决了查询重写规则发现中的搜索空间爆炸与冗余问题，成功构建了包含超百万条规则且可扩展至复杂查询场景的史上最大实证验证重写规则库。

Yuan Zhang, Yuxing Chen, Yuekun Yu, Jinbin Huang, Rui Mao, Anqun Pan, Lixiong Zheng, Jianbin QinMon, 09 Ma💻 cs

Publication and Maintenance of Relational Data in Enterprise Knowledge Graphs (Revised Version)

本文提出了一种用于构建和增量维护企业知识图谱中关系数据到 RDF 视图（RDB2RDF）的物化数据图的正式框架，并介绍了相应的架构与算法，以解决传统关系数据在语义层中的集成与实时更新问题。

Vânia Maria Ponte Vidal (Departamento de Computação, UFC, Fortaleza, Brazil), Valéria Magalhães Pequeno (TechLab, Departamento de Ciências e Tecnologias, UAL, Lisboa, Portugal), Marco Antonio Casanova (Instituto Tecgraf, Puc-Rio, Rio de Janeiro, Brazil), Narciso Arruda (Departamento de Computação, UFC, Fortaleza, Brazil), Carlos Brito (Departamento de Computação, UFC, Fortaleza, Brazil)Mon, 09 Ma💻 cs

cs.DB

R4-CGQA: Retrieval-based Vision Language Models for Computer Graphics Image Quality Assessment

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

A Hypergraph-Based Framework for Exploratory Business Intelligence

EvoSchema: Towards Text-to-SQL Robustness Against Schema Evolution

Pneuma-Seeker: A Relational Reification Mechanism to Align AI Agents with Human Work over Relational Data

Beyond Standard Datacubes: Extracting Features from Irregular and Branching Earth System Data

Poisson Sampling over Acyclic Joins

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Efficient Query Rewrite Rule Discovery via Standardized Enumeration and Learning-to-Rank(extend)

Publication and Maintenance of Relational Data in Enterprise Knowledge Graphs (Revised Version)

Towards Neural Graph Data Management

Human-Data Interaction, Exploration, and Visualization in the AI Era: Challenges and Opportunities

Space-efficient B-tree Implementation for Memory-Constrained Flash Embedded Devices

Querying with Conflicts of Interest

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Tag-specific Regret Minimization Problem in Outdoor Advertising

Numerical benchmark for damage identification in Structural Health Monitoring

The Case for Cardinality Lower Bounds