cs.IR articoli | Gist.Science

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

Il paper introduce FinRetrieval, un benchmark di 500 domande per valutare la capacità degli agenti AI di recuperare dati numerici finanziari, rivelando che la disponibilità di strumenti strutturati è il fattore determinante per le prestazioni e che le modalità di ragionamento offrono benefici variabili in base alla capacità di base del modello.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Questo studio valida un framework basato su Large Language Models per analizzare oltre 16.000 recensioni TripAdvisor, rivelando come tale approccio superi le metriche tradizionali identificando driver critici di insoddisfazione, come la comunicazione e il comportamento dello staff, che hanno portato a un crollo delle valutazioni per EgyptAir nonostante i miglioramenti operativi.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Questo studio dimostra che il benchmark di recupero FreshStack rimane affidabile nel tempo nonostante la deriva del corpus, poiché le modifiche temporali causano principalmente la migrazione dei documenti rilevanti tra repository concorrenti senza alterare significativamente le classifiche dei modelli di recupero.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

Il paper presenta iAgentBench, un nuovo benchmark dinamico per valutare le capacità di sintesi e integrazione di informazioni da più fonti degli agenti di ricerca, superando i limiti dei test attuali che si basano spesso sul recupero di un singolo passaggio.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

CONE: Embeddings for Complex Numerical Data Preserving Unit and Variable Semantics

Il paper presenta CONE, un modello ibrido pre-addestrato che utilizza un nuovo algoritmo di embedding composito per codificare numeri, intervalli e gaussiane insieme alle loro unità e attributi, preservando le relazioni semantiche e di distanza e ottenendo risultati superiori rispetto agli stati dell'arte in compiti di ragionamento numerico su dataset diversificati.

Gyanendra Shrestha, Anna Pyayt, Michael Gubanov2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Il paper presenta DARE, un modello di recupero distribuzionale-aware che, integrato con un nuovo agente LLM per R e un database di pacchetti curato, migliora significativamente il recupero di funzioni statistiche e la generazione di codice, colmando il divario tra l'automazione dei LLM e l'ecosistema statistico di R.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

Scaling Laws for Reranking in Information Retrieval

Questo lavoro presenta il primo studio sistematico delle leggi di scala per i sistemi di riclassificazione (reranking) nell'information retrieval, dimostrando che le prestazioni di modelli di diverse dimensioni seguono leggi di potenza prevedibili che permettono di stimare con accuratezza le metriche di successo su larga scala riducendo significativamente i costi computazionali.

Rahul Seetharaman, Aman Bansal, Hamed Zamani + 1 more2026-03-06💻 cs

Beyond Text: Aligning Vision and Language for Multimodal E-Commerce Retrieval

Questo lavoro propone una nuova rete di fusione multimodale per il recupero di prodotti nell'e-commerce, dimostrando che l'allineamento specifico del dominio e la fusione coordinata di testo e immagini migliorano significativamente l'efficacia dei sistemi di ricerca rispetto agli approcci basati solo sul testo.

Qujiaheng Zhang, Guagnyue Xu, Fengjie Li2026-03-06💻 cs

Detecting RAG Advertisements Across Advertising Styles

Questo studio presenta una tassonomia degli stili pubblicitari per i sistemi RAG, dimostra che i modelli basati sul riconoscimento delle entità sono efficaci e robusti nel rilevare le pubblicità generate, mentre i modelli leggeri risultano fragili di fronte ai cambiamenti stilistici.

Sebastian Heineking, Wilhelm Pertsch, Ines Zelch + 4 more2026-03-06💻 cs

Debiasing Sequential Recommendation with Time-aware Inverse Propensity Scoring

Il paper propone TIPS, un metodo di Inverse Propensity Scoring consapevole del tempo che corregge i bias di selezione ed esposizione nelle raccomandazioni sequenziali modellando le dipendenze temporali per distinguere accuratamente tra item non esposti e non interessanti.

Sirui Huang, Jing Long, Qian Li + 2 more2026-03-06🤖 cs.AI

Core-based Hierarchies for Efficient GraphRAG

Questo paper propone un approccio GraphRAG basato sulla decomposizione k-core che, sostituendo il clustering Leiden, garantisce una gerarchia deterministica e densità-consapevole per migliorare la comprensione globale, la diversità delle risposte e l'efficienza dei costi nei modelli linguistici su larga scala.

Jakir Hossain, Ahmet Erdem Sarıyüce2026-03-06💬 cs.CL

Leveraging Large Language Models for Semantic Query Processing in a Scholarly Knowledge Graph

Questa ricerca propone un sistema innovativo di interrogazione semantica che integra modelli linguistici di grandi dimensioni con un grafo della conoscenza accademica dell'ANU, utilizzando un modello documentale profondo e un processo di interrogazione potenziato per migliorare l'accuratezza e l'efficienza nel recupero delle informazioni sulla ricerca informatica.

Runsong Jia, Bowen Zhang, Sergio J. Rodríguez Méndez + 1 more2026-03-05🤖 cs.AI

RAG vs. GraphRAG: A Systematic Evaluation and Key Insights

Questo studio presenta una valutazione sistematica e unificata che confronta RAG e GraphRAG su task testuali standardizzati, evidenziando i loro punti di forza distinti e proponendo strategie di integrazione per migliorare le prestazioni complessive.

Haoyu Han, Li Ma, Yu Wang + 9 more2026-03-05💻 cs

OSCAR: Online Soft Compression And Reranking

Il paper introduce OSCAR, un metodo innovativo di compressione soft online e dipendente dalla query che riduce l'overhead computazionale e accelera l'inferenza nei sistemi RAG senza comprometterne l'accuratezza, integrando anche una funzionalità di riclassificazione.

Maxime Louis, Thibault Formal, Hervé Dejean + 1 more2026-03-05🤖 cs.AI

PinRec: Outcome-Conditioned, Multi-Token Generative Retrieval for Industry-Scale Recommendation Systems

Il documento presenta PinRec, un modello di recupero generativo scalabile sviluppato da Pinterest che utilizza la generazione condizionata agli esiti e multi-token per bilanciare efficacemente metriche aziendali, diversità ed efficienza nei sistemi di raccomandazione su larga scala.

Prabhat Agarwal, Anirudhan Badrinath, Laksh Bhasin + 4 more2026-03-05🤖 cs.LG

When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Serendipitous Recommendation

Questo articolo propone il metodo Co-Evolutionary Alignment (CoEA), che combina il modulo Dual-Stable Interest Exploration (DSIE) per modellare sia le identità di gruppo a lungo termine che gli interessi individuali a breve termine, e il meccanismo Periodic Collaborative Optimization (PCO) per un'ottimizzazione dinamica a ciclo chiuso, al fine di migliorare la serendipità nei sistemi di raccomandazione superando i limiti dei modelli tradizionali e delle attuali architetture basate su LLM.

Hongxiang Lin, Hao Guo, Zeshun Li + 6 more2026-03-05🤖 cs.AI

Towards Personalized Deep Research: Benchmarks and Evaluations

Questo lavoro introduce il PDR-Bench, il primo benchmark per valutare l'adattamento personalizzato degli agenti di ricerca profonda, accompagnato dal framework PQR per misurare l'allineamento personalizzato, la qualità del contenuto e l'affidabilità fattuale.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

Il paper presenta REVISION, un nuovo framework che integra il mining offline delle intenzioni implicite degli utenti e il ragionamento online basato su grandi modelli linguistici per ottimizzare i sistemi di ricerca visiva su Taobao, riducendo significativamente il tasso di richieste senza click.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

Succeeding at Scale: Automated Dataset Construction and Query-Side Adaptation for Multi-Tenant Search

Il paper introduce DevRev-Search, un benchmark e una strategia di adattamento che preservano l'indice, permettendo di sfruttare i dati "oscuri" dei sistemi di ricerca multi-tenant tramite un processo automatizzato di costruzione del dataset e il fine-tuning efficiente solo dell'encoder delle query.

Prateek Jain, Shabari S Nair, Ritesh Goru + 4 more2026-03-05🤖 cs.AI

Generative Recommendation for Large-Scale Advertising

Il paper presenta GR4AD, un sistema di raccomandazione generativa orientato alla produzione per la pubblicità su larga scala che integra tokenizzazione semantica unificata, decodifica autoregressiva lazy, apprendimento supervisionato e ottimizzazione basata sul ranking per massimizzare i ricavi pubblicitari, risultando in un miglioramento del 4,2% rispetto alle soluzioni tradizionali e già distribuito con successo nel sistema pubblicitario di Kuaishou.

Ben Xue, Dan Liu, Lixiang Wang + 26 more2026-03-05🤖 cs.LG

← Precedente Successivo →