OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Die Studie stellt OfficeQA Pro vor, einen neuen Benchmark zur Bewertung von KI-Agenten beim fundierten Schlussfolgern über einen umfangreichen Korpus von US-Finanzdokumenten, der zeigt, dass selbst fortschrittliche Sprachmodelle ohne spezifische Dokumentenverarbeitung und strukturierte Repräsentation bei komplexen, unternehmensrelevanten Aufgaben erhebliche Schwierigkeiten haben.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing ChenTue, 10 Ma💬 cs.CL

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Die Arbeit stellt ADC-SID vor, ein Framework zur adaptiven Entfilterung von kollaborativen Informationen für die Generierung semantischer IDs, das durch eine adaptive Ausrichtung von Verhalten und Inhalt sowie eine dynamische Gewichtung verhaltensbasierter IDs die Rauschproblematik bei Langschwanzelementen in Empfehlungssystemen effektiv adressiert.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing ZhangThu, 12 Ma💻 cs

Differentiable Geometric Indexing for End-to-End Generative Retrieval

Die Arbeit stellt Differentiable Geometric Indexing (DGI) vor, einen Ansatz zur Lösung von Optimierungsblockaden und geometrischen Konflikten im generativen Retrieval durch operative Vereinheitlichung und isotrope geometrische Optimierung, der auf großen Datensätzen überlegene Ergebnisse, insbesondere bei Long-Tail-Items, erzielt.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi ZengThu, 12 Ma💻 cs

A Hypergraph-Based Framework for Exploratory Business Intelligence

Die Arbeit stellt ExBI vor, ein neues System, das mithilfe eines Hypergraphen-Datenmodells und sampling-basierter Algorithmen die Grenzen traditioneller Business-Intelligence-Systeme überwindet, indem es dynamische Schemata ermöglicht und bei gleichbleibend hoher Genauigkeit signifikante Geschwindigkeitsvorteile gegenüber etablierten Datenbanken wie Neo4j und MySQL erzielt.

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

Breaking User-Centric Agency: A Tri-Party Framework for Agent-Based Recommendation

Die Arbeit stellt TriRec vor, ein bahnbrechendes Drei-Parteien-Framework für agentenbasierte Empfehlungssysteme, das durch die Koordination von Nutzerbedürfnissen, Item-Exposition und Plattform-Fairness mittels LLM-Agenten sowohl die Genauigkeit als auch die Fairness verbessert und dabei das traditionelle Zielkonflikt-Paradigma zwischen Relevanz und Fairness in Frage stellt.

Yaxin Gong, Chongming Gao, Chenxiao Fan, Wenjie Wang, Fuli Feng, Xiangnan HeThu, 12 Ma💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Das Paper stellt RAGPerf vor, ein Open-Source-Framework zur umfassenden End-to-End-Leistungsbewertung von Retrieval-Augmented-Generation-Systemen, das durch modulare Komponenten, flexible Konfiguration und automatisierte Metrikenerfassung detaillierte Analysen ermöglicht, ohne nennenswerten Overhead zu verursachen.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Diese Studie stellt einen interpretierbaren, LLM-gestützten Ansatz zur Identifizierung chinesischer Metaphern vor, der verschiedene Protokolle als ausführbare Regel-Skripte operationalisiert und zeigt, dass die Wahl des Protokolls die größte Variationsquelle darstellt, während gleichzeitig vollständige Transparenz und reproduzierbare Begründungen gewährleistet werden.

Weihang Huang, Mengna LiuThu, 12 Ma💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Diese Arbeit stellt ein großes zweisprachiges Korpus mit Katalogdatensätzen und einer maschinenlesbaren GND-Taxonomie vor, um ontologiebewusste Multi-Label-Klassifikation und agentengestützte Katalogisierung zu ermöglichen, wobei die Evaluierung nicht nur die Genauigkeit, sondern auch den praktischen Nutzen und die Transparenz von KI-Systemen für Bibliothekare in den Vordergrund stellt.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma SuominenThu, 12 Ma💬 cs.CL

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

Die Arbeit stellt PharmGraph-Auditor vor, ein hybrides System, das eine vertrauenswürdige pharmazeutische Wissensbasis und eine evidenzbasierte Verifikationskette nutzt, um die Sicherheit und Nachvollziehbarkeit bei der Arzneimittelverifikation durch Apotheker zu gewährleisten und dabei die Grenzen von reinen Sprachmodellen zu überwinden.

Yichi Zhu, Kan Ling, Xu Liu, Hengrun Zhang, Huiqun Yu, Guisheng FanThu, 12 Ma🤖 cs.AI