OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Le papier présente OfficeQA Pro, un nouveau benchmark évaluant la capacité des agents IA à effectuer un raisonnement ancré sur un vaste corpus hétérogène de documents du Trésor américain, révélant que même les modèles de pointe peinent à atteindre une fiabilité suffisante pour des applications d'entreprise sans une représentation structurée avancée des documents.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing ChenTue, 10 Ma💬 cs.CL

Explainability of Text Processing and Retrieval Methods: A Survey

Cet article propose une vaste revue des recherches sur l'explicabilité et l'interprétabilité des méthodes de traitement du langage naturel et de recherche d'information, en examinant spécifiquement les approches appliquées aux plongements de mots, aux modèles de séquence, aux mécanismes d'attention, aux transformers, à BERT et au classement de documents, tout en suggérant des pistes pour les travaux futurs.

Sourav Saha, Debapriyo Majumdar, Mandar MitraThu, 12 Ma💬 cs.CL

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Ce papier propose ADC-SID, un cadre innovant qui améliore la génération d'identifiants sémantiques robustes pour les systèmes de recommandation en adaptativement débruyant les informations collaboratives via un alignement comportement-contenu ajustable et un mécanisme de pondération dynamique des identifiants comportementaux.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing ZhangThu, 12 Ma💻 cs

Beyond Interleaving: Causal Attention Reformulations for Generative Recommender Systems

Cet article propose une reformulation des systèmes de recommandation génératifs via deux nouvelles architectures (AttnLFA et AttnMVP) qui éliminent l'intercalage inefficace des jetons pour modéliser explicitement la causalité entre les éléments et les actions, permettant ainsi d'améliorer les performances tout en réduisant la complexité computationnelle et le temps d'entraînement.

Hailing ChengThu, 12 Ma🤖 cs.AI

Differentiable Geometric Indexing for End-to-End Generative Retrieval

Ce papier propose la méthode DGI (Differentiable Geometric Indexing) pour résoudre les blocages d'optimisation et les conflits géométriques de la recherche générative en unifiant l'indexation et la récupération via une formation différentiable et une optimisation géométrique isotrope, surpassant ainsi les approches existantes, notamment dans les scénarios à longue traîne.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi ZengThu, 12 Ma💻 cs

Modeling Stage-wise Evolution of User Interests for News Recommendation

Cet article propose un cadre unifié pour la recommandation de nouvelles qui modélise l'évolution des intérêts des utilisateurs en combinant une perspective temporelle globale pour les préférences à long terme et une approche locale par étapes avec des mécanismes LSTM et d'attention pour capturer les dynamiques à court terme, surpassant ainsi les méthodes existantes sur des jeux de données réels.

Zhiyong Cheng, Yike Jin, Zhijie Zhang, Huilin Chen, Zhangling Duan, Meng WangThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Le papier présente RAGPerf, un cadre de référence open-source conçu pour évaluer de manière modulaire et automatisée les performances et la qualité des systèmes de génération augmentée par la récupération (RAG) en simulant des charges de travail réalistes et en mesurant des métriques d'efficacité et de précision.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Cette étude présente un pipeline assisté par LLM qui transforme quatre protocoles d'identification des métaphores en scripts de règles exécutables et auditable, démontrant que le choix du protocole est le facteur dominant de variation dans la détection des métaphores en chinois tout en garantissant une transparence totale et une reproductibilité déterministe.

Weihang Huang, Mengna LiuThu, 12 Ma💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Cet article présente un corpus bilingue anglais-allemand annoté avec la Norme d'Autorité Intégrée (GND) et une taxonomie machine-actionable, conçus pour faciliter le classement automatique des notices de bibliothèque et le développement de copilotes d'IA transparents et ancrés dans l'autorité pour assister les catalogueurs.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma SuominenThu, 12 Ma💬 cs.CL

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

Ce papier présente PharmGraph-Auditor, un cadre hybride innovant qui combine une base de connaissances pharmaceutiques unifiée (HPKB) et une méthode de vérification par chaîne (CoV) pour transformer les grands modèles de langage en moteurs de raisonnement transparents et fiables, afin d'améliorer la sécurité et la traçabilité de la vérification des ordonnances.

Yichi Zhu, Kan Ling, Xu Liu, Hengrun Zhang, Huiqun Yu, Guisheng FanThu, 12 Ma🤖 cs.AI

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Cette étude systématique démontre que le choix du modèle de rétroaction est déterminant pour l'efficacité de la rétroaction de pertinence pseudo (PRF) basée sur les LLM, tout en identifiant que l'utilisation de textes générés par les LLM constitue la solution la plus rentable, tandis que l'exploitation du corpus est optimale lorsque le premier stade de récupération est déjà performant.

Nour Jedidi, Jimmy LinThu, 12 Ma💬 cs.CL

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

Ce papier présente HCT-QA, un nouveau benchmark complet pour l'évaluation des modèles de question-réponse sur des tableaux centrés sur l'humain (HCT) aux structures complexes, incluant un vaste ensemble de données réelles et synthétiques ainsi que des résultats d'expérimentation démontrant l'efficacité du fine-tuning.

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-SayehMon, 09 Ma🤖 cs.AI