cs.IR articoli | Gist.Science

TURA: Tool-Augmented Unified Retrieval Agent for AI Search

Il paper presenta TURA, un agente di ricerca AI unificato che integra la generazione aumentata dal recupero (RAG) con l'uso di strumenti agenziali per superare i limiti dei sistemi tradizionali, consentendo l'accesso in tempo reale sia a contenuti statici che a dati dinamici attraverso un'architettura a tre stadi ottimizzata per l'uso industriale su larga scala.

Zhejun Zhao, Yuchen Li, Alley Liu, Yuehu Dong, Xiaolong Wei, Lixue Zheng, Pingsheng Liu, Dongdong Shen, Long Xia, Jiashu Zhao, Dawei YinFri, 13 Ma💬 cs.CL

On the Theoretical Limitations of Embedding-Based Retrieval

Questo lavoro dimostra che i modelli di recupero basati su embedding vettoriale sono intrinsecamente limitati dalla dimensionalità dello spazio di embedding, un vincolo teorico che impedisce loro di gestire compiti di recupero realistici anche con query semplici, indipendentemente dalla qualità dei dati di addestramento o dalla grandezza del modello.

Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk LeeFri, 13 Ma💬 cs.CL

Mobile-Agent-RAG: Driving Smart Multi-Agent Coordination with Contextual Knowledge Empowerment for Long-Horizon Mobile Automation

Il paper propone Mobile-Agent-RAG, un innovativo framework multi-agente gerarchico che integra un'arricchimento contestuale a doppio livello (Manager-RAG per la pianificazione strategica e Operator-RAG per l'esecuzione operativa) per superare le limitazioni degli agenti mobili attuali, riducendo le allucinazioni e gli errori di esecuzione nei compiti a lungo raggio attraverso l'uso di basi di conoscenza specializzate.

Yuxiang Zhou, Jichang Li, Yanhao Zhang, Haonan Lu, Guanbin LiFri, 13 Ma🤖 cs.AI

PosIR: Position-Aware Heterogeneous Information Retrieval Benchmark

Il paper introduce PosIR, il primo benchmark standardizzato multilingue e multidominio progettato per diagnosticare sistematicamente il bias posizionale nei modelli di recupero informazioni, rivelando attraverso esperimenti su dieci modelli all'avanguardia che tale pregiudizio è pervasivo, spesso correlato negativamente alle valutazioni su testi brevi e legato a specifici meccanismi interni del modello.

Ziyang Zeng, Dun Zhang, Yu Yan, Xu Sun, Cuiqiaoshu Pan, Yudong Zhou, Yuqing YangFri, 13 Ma💬 cs.CL

Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Il paper presenta SLATE, un framework che migliora il ragionamento dei modelli linguistici con recupero di informazioni tramite un campionamento a livello di passo troncato e ricompense processuali dense, risolvendo il problema dell'assegnazione del credito e riducendo la varianza dei gradienti rispetto ai metodi esistenti.

Chris Samarinas, Haw-Shiuan Chang, Hamed ZamaniFri, 13 Ma💬 cs.CL

Geodesic Semantic Search: Learning Local Riemannian Metrics for Citation Graph Retrieval

Il paper presenta Geodesic Semantic Search (GSS), un sistema di recupero che apprende metriche Riemanniane specifiche per ogni nodo sui grafi di citazione per abilitare una ricerca semantica consapevole della geometria, ottenendo significativi miglioramenti nelle prestazioni rispetto ai metodi basati su spazi euclidei fissi.

Brandon Yee, Lucas Wang, Kundana Kommini, Krishna SharmaFri, 13 Ma🤖 cs.LG

OpenSanctions Pairs: Large-Scale Entity Matching with LLMs

Il paper introduce OpenSanctions Pairs, un ampio benchmark per l'abbinamento di entità derivato da dati reali sulle sanzioni internazionali, dimostrando che i modelli linguistici (LLM) superano significativamente i sistemi basati su regole e che le prestazioni stanno raggiungendo un limite pratico, suggerendo un futuro spostamento degli sforzi verso componenti della pipeline come il blocco e il clustering.

Chandler Smith, Magnus Sesodia, Friedrich Lindenberg, Christian Schroeder de WittFri, 13 Ma💬 cs.CL

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Il paper propone MDER-DR, un framework di Question Answering basato su Knowledge Graph che combina un nuovo approccio di indicizzazione (MDER) e un meccanismo di recupero (DR) per superare i limiti dei sistemi RAG tradizionali, ottenendo miglioramenti significativi nelle risposte a domande multi-hop senza richiedere una traversa esplicita del grafo.

Riccardo Campi, Nicolò Oreste Pinciroli Vago, Mathyas Giudici, Marco Brambilla, Piero FraternaliFri, 13 Ma💬 cs.CL

Modeling Trial-and-Error Navigation With a Sequential Decision Model of Information Scent

Questo articolo propone un modello di decisione sequenziale che estende il concetto di "odore informativo" per spiegare come gli utenti, vincolati da limiti di memoria e tempo, adottino strategie di navigazione basate su tentativi ed errori, selezionando link prematuramente e recuperando dagli errori tramite il backtracking.

Xiaofu Jin, Yunpeng Bai, Antti OulasvirtaFri, 13 Ma🤖 cs.LG

How Auditing Methodologies Can Impact Our Understanding of YouTube's Recommendation Systems

Questo studio dimostra che le scelte metodologiche negli audit di YouTube, come l'uso di account loggati, influenzano significativamente l'accuratezza delle inferenze sui bias dei sistemi di raccomandazione, offrendo al contempo strategie per ridurre i costi computazionali ed economici senza compromettere la validità scientifica dei risultati.

Sarmad Chandio, Daniyal Pirwani Dar, Rishab Nithyanand2026-03-10💻 cs

Agent-OM: Leveraging LLM Agents for Ontology Matching

Il paper introduce Agent-OM, un nuovo framework basato su agenti LLM che utilizza due agenti siamesi e strumenti specifici per il matching di ontologie, dimostrando prestazioni competitive su compiti semplici e significativamente superiori su compiti complessi e few-shot rispetto agli stati dell'arte attuali.

Zhangcheng Qiang, Weiqing Wang, Kerry Taylor2026-03-10💬 cs.CL

LEXA: Legal Case Retrieval via Graph Contrastive Learning with Contextualised LLM Embeddings

Il modello LEXA migliora il recupero dei casi legali integrando informazioni strutturali dei grafi tramite un meccanismo di attenzione aggiornante gli archi, segnali di apprendimento contrastivo potenziati e incorporamenti contestualizzati generati da grandi modelli linguistici, superando così le prestazioni degli stati dell'arte.

Yanran Tang, Ruihong Qiu, Yilun Liu + 2 more2026-03-06💻 cs

Vector Retrieval with Similarity and Diversity: How Hard Is It?

Questo articolo introduce e analizza teoricamente il problema NP-completo della ricerca vettoriale con similarità e diversità (VRSD), proponendo un nuovo algoritmo euristico privo di parametri che supera le prestazioni dei metodi esistenti come MMR e k-DPP.

Hang Gao, Dong Deng, Yongfeng Zhang2026-03-06💻 cs

Agentic Multi-Persona Framework for Evidence-Aware Fake News Detection

Il paper presenta AMPEND-LS, un framework innovativo basato su agenti multi-persona e sulla sinergia tra LLM e SLM che supera le limitazioni degli attuali metodi di rilevamento delle fake news garantendo maggiore accuratezza, robustezza e spiegabilità attraverso un'analisi multimodale e fondata su prove.

Roopa Bukke, Soumya Pandey, Suraj Kumar + 2 more2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Il documento propone un metodo scalabile per la previsione del segno dei link nei grafi firmati che, estendendo CopulaGNN, modella le dipendenze statistiche tra gli archi tramite una matrice di correlazione a basso rango e una riformulazione della probabilità condizionata, garantendo così una convergenza lineare e prestazioni competitive con costi computazionali ridotti.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Mapping a Decade of Avian Influenza Research (2014-2023): A Scientometric Analysis from Web of Science

Questo studio scientometrico analizza i trend di ricerca sull'influenza aviatica dal 2014 al 2023, evidenziando un aumento costante delle pubblicazioni guidate da Cina e Stati Uniti e sottolineando l'importanza della collaborazione internazionale.

Muneer Ahmad, Undie Felicia Nkatv, Amrita Sharma + 3 more2026-03-06💻 cs

Beyond the Unit Hypersphere: Embedding Magnitude in Contrastive Learning

Questo studio dimostra che, a differenza delle applicazioni simmetriche come CLIP, l'apprendimento della magnitudine degli embedding tramite normalizzazione asimmetrica migliora significativamente le prestazioni nel recupero e nel RAG, offrendo vantaggi superiori nella generalizzazione fuori dominio rispetto a quella in dominio.

Xincan Feng, Taro Watanabe2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

Il documento presenta Pailitao-VL, un sistema di ricerca multimodale industriale in tempo reale che supera le limitazioni delle soluzioni attuali grazie a un nuovo paradigma di embedding basato sul riconoscimento di ID assoluti e a un riordinatore generativo comparativo, ottenendo prestazioni all'avanguardia e un significativo impatto commerciale su Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

Give Users the Wheel: Towards Promptable Recommendation Paradigm

Il paper propone DPR, un framework agnostico che potenzia i modelli di raccomandazione sequenziale tradizionali consentendo di guidare dinamicamente il processo di recupero tramite prompt in linguaggio naturale, integrando efficacemente segnali collaborativi e semantici senza compromettere l'efficienza o la precisione.

Fuyuan Lyu, Chenglin Luo, Qiyuan Zhang + 6 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Il paper presenta SearchGym, un'infrastruttura modulare open-source che colma il divario tra prototipi sperimentali e sistemi di produzione per il RAG, permettendo il benchmarking cross-platform e l'orchestrazione ibrida attraverso astrazioni disaccoppiate e un'algebra di configurazione composita, con risultati che evidenziano come l'ottimizzazione ingegneristica possa rivelare meccanismi causali fondamentali nel recupero dell'informazione.

Jerome Tze-Hou Hsu2026-03-06💻 cs

← Precedente Successivo →