cs.IR articoli | Gist.Science

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Il paper introduce OfficeQA Pro, un benchmark per valutare le capacità di ragionamento fondato su documenti degli agenti AI, rivelando che anche i modelli linguistici più avanzati faticano a ottenere risultati affidabili su un vasto corpus di bollettini del Tesoro degli Stati Uniti, sebbene l'uso di rappresentazioni documentali strutturate possa migliorare significativamente le prestazioni.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing ChenTue, 10 Ma💬 cs.CL

Explainability of Text Processing and Retrieval Methods: A Survey

Questo articolo offre una panoramica completa delle ricerche sull'interpretabilità e la spiegabilità dei metodi di elaborazione del linguaggio naturale e di recupero delle informazioni, esaminando in particolare tecniche applicate a word embeddings, modelli sequenziali, meccanismi di attenzione, transformer, BERT e ranking dei documenti, per concludere con suggerimenti per la ricerca futura.

Sourav Saha, Debapriyo Majumdar, Mandar MitraThu, 12 Ma💬 cs.CL

Taming the Long Tail: Denoising Collaborative Information for Robust Semantic ID Generation

Il paper propone ADC-SID, un framework che migliora la generazione robusta di ID semantici nei sistemi di raccomandazione adattando l'allineamento tra contenuto e comportamento e ponderando dinamicamente i segnali collaborativi per mitigare il rumore e migliorare la generalizzazione sugli elementi a coda lunga.

Yi Xu, Moyu Zhang, Chaofan Fan, Jinxin Hu, Xiaochen Li, Yu Zhang, Xiaoyi Zeng, Jing ZhangThu, 12 Ma💻 cs

Intuition First or Reflection Before Judgment? The Impact of Evaluation Sequence on Consumer Ratings

Questa ricerca dimostra che l'ordine di valutazione (prima la recensione o prima il voto) polarizza le recensioni dei consumatori, aumentando i voti estremi per servizi di alta o bassa qualità grazie a euristiche affettive e sforzo cognitivo, un effetto confermato sia da esperimenti controllati che da dati reali di piattaforme come Yelp e Letterboxd.

He Wang, Yueheng Wang, Ziyu Zhou, Hanxiang LiuThu, 12 Ma💻 cs

Does Reasoning Make Search More Fair? Comparing Fairness in Reasoning and Non-Reasoning Rerankers

Lo studio dimostra che i reranker dotati di capacità di ragionamento non migliorano né peggiorano l'equità rispetto a quelli tradizionali, poiché tendono a preservare le caratteristiche di equità della classifica di input, indicando la necessità di futuri modelli specializzati nella consapevolezza degli attributi di equità.

Saron Samuel, Benjamin Van Durme, Eugene YangThu, 12 Ma🤖 cs.AI

Beyond Interleaving: Causal Attention Reformulations for Generative Recommender Systems

Questo lavoro propone una riformulazione dei sistemi di raccomandazione generativi che, sostituendo l'interleaving dei token con le nuove architetture AttnLFA e AttnMVP, elimina le inefficienze strutturali modellando esplicitamente le dipendenze causali tra articoli e azioni, ottenendo così migliori prestazioni di valutazione e una riduzione significativa dei tempi di addestramento.

Hailing ChengThu, 12 Ma🤖 cs.AI

Differentiable Geometric Indexing for End-to-End Generative Retrieval

Il paper propone DGI (Differentiable Geometric Indexing), un nuovo approccio per il recupero generativo che risolve i conflitti di ottimizzazione e geometrici esistenti unificando l'indicizzazione e il recupero in un quadro differenziabile e sostituendo le logiche basate sul prodotto interno con una similarità coseno scalata per migliorare la robustezza nei casi di coda lunga.

Xujing Wang, Yufeng Chen, Boxuan Zhang, Jie Zhao, Chao Wei, Cai Xu, Ziyu Guan, Wei Zhao, Weiru Zhang, Xiaoyi ZengThu, 12 Ma💻 cs

Modeling Stage-wise Evolution of User Interests for News Recommendation

Il paper propone un framework unificato per la raccomandazione di notizie che modella l'evoluzione degli interessi degli utenti su due livelli temporali, combinando segnali globali a lungo termine con dinamiche locali a breve termine basate su sottografi temporali, superando così i limiti degli approcci statici esistenti.

Zhiyong Cheng, Yike Jin, Zhijie Zhang, Huilin Chen, Zhangling Duan, Meng WangThu, 12 Ma🤖 cs.AI

Trajectory-Informed Memory Generation for Self-Improving Agent Systems

Il paper presenta un nuovo framework per agenti basati su LLM che estrae automaticamente lezioni dalle traiettorie di esecuzione e le utilizza come memoria contestuale per migliorare le prestazioni future, ottenendo significativi aumenti nel completamento di compiti complessi.

Gaodan Fang, Vatche Isahagian, K. R. Jayaram, Ritesh Kumar, Vinod Muthusamy, Punleuk Oum, Gegi ThomasThu, 12 Ma🤖 cs.AI

A Hypergraph-Based Framework for Exploratory Business Intelligence

Il paper presenta ExBI, un sistema innovativo basato su un modello di ipergrafi che supera i limiti dei sistemi di Business Intelligence tradizionali consentendo l'evoluzione dinamica dello schema e il riutilizzo delle viste, ottenendo accelerazioni significative (fino a 230 volte) rispetto a database esistenti come Neo4j e MySQL mantenendo un'accuratezza analitica elevata.

Yunkai Lou, Shunyang Li, Longbin Lai, Jianke Yu, Wenyuan Yu, Ying ZhangThu, 12 Ma💻 cs

Breaking User-Centric Agency: A Tri-Party Framework for Agent-Based Recommendation

Il paper propone TriRec, il primo framework di raccomandazione basato su agenti LLM a tre parti che coordina utilità dell'utente, esposizione degli articoli e equità della piattaforma, dimostrando come l'autopromozione degli articoli possa migliorare simultaneamente equità ed efficacia senza compromessi.

Yaxin Gong, Chongming Gao, Chenxiao Fan, Wenjie Wang, Fuli Feng, Xiangnan HeThu, 12 Ma💻 cs

Structured Linked Data as a Memory Layer for Agent-Orchestrated Retrieval

Lo studio dimostra che l'utilizzo di dati strutturati collegati, in particolare pagine entità ottimizzate con istruzioni per agenti e collegamenti neurali, migliora significativamente l'accuratezza e la qualità delle risposte nei sistemi RAG tradizionali e agentic rispetto alla semplice elaborazione di testo piatto.

Andrea Volpini, Elie Raad, Beatrice Gamba, David RiccitelliThu, 12 Ma🤖 cs.AI

RAGPerf: An End-to-End Benchmarking Framework for Retrieval-Augmented Generation Systems

Il paper presenta RAGPerf, un framework open source end-to-end per il benchmarking dei sistemi di Retrieval-Augmented Generation che, decodificando il flusso di lavoro in componenti modulari, permette un'analisi dettagliata delle prestazioni e della qualità attraverso la configurazione flessibile di modelli, database vettoriali e carichi di lavoro realistici.

Shaobo Li, Yirui Zhou, Yuan Xu, Kevin Chen, Daniel Waddington, Swaminathan Sundararaman, Hubertus Franke, Jian HuangThu, 12 Ma💻 cs

Interpretable Chinese Metaphor Identification via LLM-Assisted MIPVU Rule Script Generation: A Comparative Protocol Study

Questo studio presenta una pipeline assistita da LLM che trasforma quattro protocolli di identificazione delle metafore in script di regole eseguibili e interpretabili per il cinese, dimostrando che la scelta del protocollo è il fattore dominante nella variabilità dei risultati e che tale approccio garantisce trasparenza e riproducibilità senza compromettere le prestazioni.

Weihang Huang, Mengna LiuThu, 12 Ma💬 cs.CL

An Extreme Multi-label Text Classification (XMTC) Library Dataset: What if we took "Use of Practical AI in Digital Libraries" seriously?

Il paper presenta un nuovo corpus bilingue (inglese/tedesco) di record bibliografici annotati con l'Integrated Authority File (GND) e una tassonomia machine-actionable, progettato per abilitare la classificazione multi-etichetta consapevole dell'ontologia e supportare catalogatori umani tramite assistenti AI trasparenti e valutabili.

Jennifer D'Souza, Sameer Sadruddin, Maximilian Kähler, Andrea Salfinger, Luca Zaccagna, Francesca Incitti, Lauro Snidaro, Osma SuominenThu, 12 Ma💬 cs.CL

A Hybrid Knowledge-Grounded Framework for Safety and Traceability in Prescription Verification

Il paper presenta PharmGraph-Auditor, un sistema ibrido che combina un Knowledge Base farmaceutico unificato e una nuova catena di verifica basata su conoscenze per potenziare la sicurezza e la tracciabilità nella verifica delle prescrizioni, trasformando i modelli linguistici da generatori inaffidabili a motori di ragionamento trasparenti.

Yichi Zhu, Kan Ling, Xu Liu, Hengrun Zhang, Huiqun Yu, Guisheng FanThu, 12 Ma🤖 cs.AI

A Systematic Study of Pseudo-Relevance Feedback with LLMs

Questo studio sistematico analizza l'impatto delle fonti e dei modelli di feedback sulla pseudo-relevance feedback basata su LLM, rivelando che la scelta del modello è cruciale e che l'uso esclusivo di testo generato dall'LLM offre la soluzione più efficiente in termini di costi, mentre il feedback derivato dal corpus risulta più vantaggioso quando si utilizzano documenti candidati da un recuperatore iniziale robusto.

Nour Jedidi, Jimmy LinThu, 12 Ma💬 cs.CL

LLMGreenRec: LLM-Based Multi-Agent Recommender System for Sustainable E-Commerce

Il paper presenta LLMGreenRec, un innovativo sistema di raccomandazione basato su agenti multipli e modelli linguistici su larga scala che promuove il consumo sostenibile nell'e-commerce ottimizzando le raccomandazioni di prodotti ecologici e riducendo al contempo l'impronta di carbonio digitale.

Hao N. Nguyen, Hieu M. Nguyen, Son Van Nguyen, Nguyen Thi HanhThu, 12 Ma💻 cs

Chasing RATs: Tracing Reading for and as Creative Activity

Il paper introduce le "Reading Activity Traces" (RATs), un approccio che riconosce la lettura come attività creativa in sé e per il futuro, rendendo visibili i processi interpretativi umani spesso oscurati dall'automazione algoritmica attraverso un'istanza speculativa su Wikipedia chiamata WikiRAT.

Sophia Liu, Shm Garanganao AlmedaThu, 12 Ma💻 cs

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

Il paper propone HCT-QA, un nuovo benchmark completo per la risposta alle domande su tabelle complesse e orientate all'uomo (HCT), che include migliaia di esempi reali e sintetici per valutare e migliorare le prestazioni di modelli linguistici e visivi.

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-SayehMon, 09 Ma🤖 cs.AI

← Precedente Successivo →