OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Il paper introduce OfficeQA Pro, un benchmark per valutare le capacità di ragionamento fondato su documenti degli agenti AI, rivelando che anche i modelli linguistici più avanzati faticano a ottenere risultati affidabili su un vasto corpus di bollettini del Tesoro degli Stati Uniti, sebbene l'uso di rappresentazioni documentali strutturate possa migliorare significativamente le prestazioni.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing ChenTue, 10 Ma💬 cs.CL

Explainability of Text Processing and Retrieval Methods: A Survey

Questo articolo offre una panoramica completa delle ricerche sull'interpretabilità e la spiegabilità dei metodi di elaborazione del linguaggio naturale e di recupero delle informazioni, esaminando in particolare tecniche applicate a word embeddings, modelli sequenziali, meccanismi di attenzione, transformer, BERT e ranking dei documenti, per concludere con suggerimenti per la ricerca futura.

Sourav Saha, Debapriyo Majumdar, Mandar MitraThu, 12 Ma💬 cs.CL

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Il paper propone ADC-SID, un framework che migliora la generazione robusta di ID semantici nei sistemi di raccomandazione adattando l'allineamento tra contenuto e comportamento e ponderando dinamicamente i segnali collaborativi per mitigare il rumore e migliorare la generalizzazione sugli elementi a coda lunga.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing ZhangThu, 12 Ma💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Questa ricerca dimostra che l'ordine di valutazione (prima la recensione o prima il voto) polarizza le recensioni dei consumatori, aumentando i voti estremi per servizi di alta o bassa qualità grazie a euristiche affettive e sforzo cognitivo, un effetto confermato sia da esperimenti controllati che da dati reali di piattaforme come Yelp e Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

Beyond Interleaving: Causal Attention Reformulations for Generative Recommender Systems

Questo lavoro propone una riformulazione dei sistemi di raccomandazione generativi che, sostituendo l'interleaving dei token con le nuove architetture AttnLFA e AttnMVP, elimina le inefficienze strutturali modellando esplicitamente le dipendenze causali tra articoli e azioni, ottenendo così migliori prestazioni di valutazione e una riduzione significativa dei tempi di addestramento.

Hailing ChengThu, 12 Ma🤖 cs.AI

Differentiable Geometric Indexing for End-to-End Generative Retrieval

Il paper propone DGI (Differentiable Geometric Indexing), un nuovo approccio per il recupero generativo che risolve i conflitti di ottimizzazione e geometrici esistenti unificando l'indicizzazione e il recupero in un quadro differenziabile e sostituendo le logiche basate sul prodotto interno con una similarità coseno scalata per migliorare la robustezza nei casi di coda lunga.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi ZengThu, 12 Ma💻 cs

A Hypergraph-Based Framework for Exploratory Business Intelligence

Il paper presenta ExBI, un sistema innovativo basato su un modello di ipergrafi che supera i limiti dei sistemi di Business Intelligence tradizionali consentendo l'evoluzione dinamica dello schema e il riutilizzo delle viste, ottenendo accelerazioni significative (fino a 230 volte) rispetto a database esistenti come Neo4j e MySQL mantenendo un'accuratezza analitica elevata.

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Il paper presenta RAGPerf, un framework open source end-to-end per il benchmarking dei sistemi di Retrieval-Augmented Generation che, decodificando il flusso di lavoro in componenti modulari, permette un'analisi dettagliata delle prestazioni e della qualità attraverso la configurazione flessibile di modelli, database vettoriali e carichi di lavoro realistici.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Questo studio presenta una pipeline assistita da LLM che trasforma quattro protocolli di identificazione delle metafore in script di regole eseguibili e interpretabili per il cinese, dimostrando che la scelta del protocollo è il fattore dominante nella variabilità dei risultati e che tale approccio garantisce trasparenza e riproducibilità senza compromettere le prestazioni.

Weihang Huang, Mengna LiuThu, 12 Ma💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Il paper presenta un nuovo corpus bilingue (inglese/tedesco) di record bibliografici annotati con l'Integrated Authority File (GND) e una tassonomia machine-actionable, progettato per abilitare la classificazione multi-etichetta consapevole dell'ontologia e supportare catalogatori umani tramite assistenti AI trasparenti e valutabili.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma SuominenThu, 12 Ma💬 cs.CL

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

Il paper presenta PharmGraph-Auditor, un sistema ibrido che combina un Knowledge Base farmaceutico unificato e una nuova catena di verifica basata su conoscenze per potenziare la sicurezza e la tracciabilità nella verifica delle prescrizioni, trasformando i modelli linguistici da generatori inaffidabili a motori di ragionamento trasparenti.

Yichi Zhu, Kan Ling, Xu Liu, Hengrun Zhang, Huiqun Yu, Guisheng FanThu, 12 Ma🤖 cs.AI

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Questo studio sistematico analizza l'impatto delle fonti e dei modelli di feedback sulla pseudo-relevance feedback basata su LLM, rivelando che la scelta del modello è cruciale e che l'uso esclusivo di testo generato dall'LLM offre la soluzione più efficiente in termini di costi, mentre il feedback derivato dal corpus risulta più vantaggioso quando si utilizzano documenti candidati da un recuperatore iniziale robusto.

Nour Jedidi, Jimmy LinThu, 12 Ma💬 cs.CL