cs.IR articles | Gist.Science

ThinkQE: Query Expansion via an Evolving Thinking Process

Le papier présente ThinkQE, un cadre d'expansion de requêtes testé en temps réel qui améliore la recherche web en combinant un processus de réflexion approfondie et une stratégie d'interaction itérative avec le corpus pour générer des expansions plus diversifiées et sémantiquement riches.

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

TaoSR1: The Thinking Model for E-commerce Relevance Search

Le papier présente TaoSR1, un cadre innovant permettant le déploiement direct de grands modèles de langage pour la prédiction de pertinence dans le commerce électronique en surmontant les limites des approches traditionnelles grâce à un entraînement en trois étapes intégrant le raisonnement par chaîne de pensée et des techniques d'optimisation avancées.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Cette étude propose ELERAG, une architecture de génération augmentée par la récupération intégrant le lien d'entités et une stratégie de réordonnancement hybride, qui démontre une précision factuelle supérieure aux méthodes de l'état de l'art dans des contextes éducatifs spécialisés en italien, tout en révélant l'importance d'adapter les stratégies au domaine pour éviter les biais de distribution.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

MCGI: Manifold-Consistent Graph Indexing for Billion-Scale Disk-Resident Vector Search

Ce papier présente MCGI, une méthode d'indexation géométrique résidente sur disque qui utilise la dimension intrinsèque locale pour adapter dynamiquement la recherche de voisins les plus proches, surpassant ainsi les solutions de l'état de l'art en termes de débit et de latence à l'échelle du milliard de vecteurs.

Dongfang ZhaoWed, 11 Ma🤖 cs.AI

Scaling Multilingual Semantic Search in Uber Eats Delivery

Ce papier présente un système de recherche sémantique multilingue et multi-verticals déployé en production chez Uber Eats, qui unifie la récupération des restaurants, plats et articles de grande consommation grâce à un modèle Qwen2 fine-tuné sur des centaines de millions d'interactions et optimisé avec des techniques d'apprentissage avancées comme MRL et des pertes combinées.

Bo Ling, Zheng Liu, Haoyang Chen, Divya Nagar, Luting Yang, Mehul ParsanaWed, 11 Ma💻 cs

Time warping with Hellinger elasticity

Cet article propose l'algorithme de déformation temporelle élastique, qui résout le problème d'appariement de séries temporelles dans un espace métrique arbitraire avec une pénalité de déformation basée sur le noyau de Hellinger, le tout avec une complexité computationnelle cubique.

Yuly BilligWed, 11 Ma💻 cs

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Cette étude démontre que les métriques de couverture dans les systèmes de récupération peuvent servir d'indicateurs fiables de la couverture informationnelle des réponses générées par les systèmes RAG, particulièrement lorsque les objectifs de récupération s'alignent avec ceux de la génération.

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van DurmeWed, 11 Ma🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Cette étude démontre que la visibilité des domaines dans les moteurs de recherche génératifs est intrinsèquement stochastique et sujette à une grande variabilité, rendant les mesures ponctuelles trompeuses et soulignant la nécessité d'adopter un cadre statistique incluant des intervalles de confiance pour quantifier correctement l'incertitude.

Ronald SielinskiWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

Le système Guardian propose une approche décisionnelle interprétable pour la recherche d'enfants disparus, combinant des chaînes de Markov pour la modélisation des risques spatiotemporels, l'apprentissage par renforcement pour l'optimisation des plans de recherche et des modèles de langage pour la validation automatique de la qualité.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Le papier présente PathoScribe, un cadre unifié piloté par un grand modèle de langage (LLM) qui transforme les archives de pathologie statiques en une bibliothèque vivante et intelligente, permettant la recherche sémantique, la construction automatisée de cohortes et l'aide au diagnostic clinique avec une précision et une efficacité supérieures aux méthodes traditionnelles.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Ce papier présente Guardian, un système end-to-end coordonnant plusieurs modèles de langage spécialisés et un moteur de consensus pour extraire et traiter intelligemment les informations lors des premières heures critiques d'une enquête sur une personne disparue, tout en garantissant une approche auditable et conservatrice.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Unlocking High-Fidelity Analog Joint Source-Channel Coding on Standard Digital Transceivers

Ce papier présente D2AJSCC, un cadre innovant qui permet le déploiement de codage source-canal analogique haute fidélité sur des couches physiques numériques standard en exploitant la structure des sous-porteuses OFDM pour synthétiser des ondes analogiques et en utilisant un réseau de substitution différentiable pour assurer un entraînement de bout en bout, comblant ainsi l'écart entre la promesse théorique du JSCC analogique et sa mise en œuvre pratique sur des infrastructures existantes.

Shumin Yao, Hao Chen, Yaping Sun, Nan Ma, Xiaodong Xu, Qinglin Zhao, Shuguang CuiWed, 11 Ma🔢 math

From Verification to Amplification: Auditing Reverse Image Search as Algorithmic Gatekeeping in Visual Misinformation Fact-checking

Cette étude audite l'algorithme de recherche d'images inversée de Google et révèle qu'il fonctionne comme un garde-fou inefficace contre la désinformation visuelle, car les résultats de vérification des faits y sont minoritaires et noyés dans un flot d'informations irrélevantes et de fausses images récurrentes.

Cong Lin, Yifei Chen, Jiangyue Chen, Yingdan Lu, Yilang Peng, Cuihua ShenWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Le papier présente DataFactory, un cadre collaboratif multi-agents qui surpasse les approches LLM existantes pour le questionnement sur les tableaux en combinant une orchestration de raisonnement, une transformation automatique des données en graphes de connaissances et une délibération flexible entre agents spécialisés pour améliorer la précision et réduire les hallucinations.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Le papier présente RF-Mem, un système de récupération de mémoire adaptatif qui imite le double processus cognitif humain de familiarité et de récollection pour personnaliser efficacement les grands modèles de langage sans surcharge computationnelle.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu ZhaoWed, 11 Ma💻 cs

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Ce papier présente AgentGEO, un cadre agentic diagnostique qui améliore significativement les taux de citation dans l'optimisation pour les moteurs génératifs (GEO) en identifiant et en réparant spécifiquement les modes d'échec des citations, contrairement aux méthodes existantes qui appliquent des règles génériques uniformes.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi JiaWed, 11 Ma💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Le papier présente TA-Mem, un cadre innovant d'extraction et de récupération autonome de mémoire assisté par des outils pour les grands modèles de langage, conçu pour surmonter les limites des fenêtres de contexte dans les conversations à long terme en adaptant dynamiquement la recherche d'informations via une base de données multi-indexée.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Le papier présente PRECEPT, un cadre unifié d'adaptation au moment du test qui améliore la fiabilité des agents LLM en combinant une récupération de règles déterministe, une mémoire conflictuelle et une évolution de prompts guidée par le Pareto, permettant ainsi de surmonter les dégradations de récupération, d'assurer une généralisation compositionnelle robuste et de récupérer efficacement face aux connaissances obsolètes ou adverses.

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

Understanding the Interplay between LLMs' Utilisation of Parametric and Contextual Knowledge: A keynote at ECIR 2025

Cette conférence à ECIR 2025 explore l'interaction complexe entre les connaissances paramétriques et contextuelles des grands modèles de langage, en présentant des méthodes pour évaluer les conflits de connaissances et comprendre comment les modèles intègrent ou ignorent le contexte fourni.

Isabelle AugensteinWed, 11 Ma💬 cs.CL

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Cette étude propose un cadre de classification automatisé pour la gestion des risques cardiaques chez les personnes âgées, démontrant qu'une architecture Transformer personnalisée surpassant les modèles classiques et les grands modèles de langage génériques permet d'exploiter efficacement les dossiers médicaux électroniques non structurés pour une stratification clinique précise.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI