TaoSR1: The Thinking Model for E-commerce Relevance Search

Le papier présente TaoSR1, un cadre innovant permettant le déploiement direct de grands modèles de langage pour la prédiction de pertinence dans le commerce électronique en surmontant les limites des approches traditionnelles grâce à un entraînement en trois étapes intégrant le raisonnement par chaîne de pensée et des techniques d'optimisation avancées.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

Enhancing Retrieval-Augmented Generation with Entity Linking for Educational Platforms

Cette étude propose ELERAG, une architecture de génération augmentée par la récupération intégrant le lien d'entités et une stratégie de réordonnancement hybride, qui démontre une précision factuelle supérieure aux méthodes de l'état de l'art dans des contextes éducatifs spécialisés en italien, tout en révélant l'importance d'adapter les stratégies au domaine pour éviter les biais de distribution.

Francesco Granata, Francesco Poggi, Misael MongiovìWed, 11 Ma🤖 cs.AI

Scaling Multilingual Semantic Search in Uber Eats Delivery

Ce papier présente un système de recherche sémantique multilingue et multi-verticals déployé en production chez Uber Eats, qui unifie la récupération des restaurants, plats et articles de grande consommation grâce à un modèle Qwen2 fine-tuné sur des centaines de millions d'interactions et optimisé avec des techniques d'apprentissage avancées comme MRL et des pertes combinées.

Bo Ling, Zheng Liu, Haoyang Chen, Divya Nagar, Luting Yang, Mehul ParsanaWed, 11 Ma💻 cs

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Cette étude démontre que les métriques de couverture dans les systèmes de récupération peuvent servir d'indicateurs fiables de la couverture informationnelle des réponses générées par les systèmes RAG, particulièrement lorsque les objectifs de récupération s'alignent avec ceux de la génération.

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van DurmeWed, 11 Ma🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

Le système Guardian propose une approche décisionnelle interprétable pour la recherche d'enfants disparus, combinant des chaînes de Markov pour la modélisation des risques spatiotemporels, l'apprentissage par renforcement pour l'optimisation des plans de recherche et des modèles de langage pour la validation automatique de la qualité.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Le papier présente PathoScribe, un cadre unifié piloté par un grand modèle de langage (LLM) qui transforme les archives de pathologie statiques en une bibliothèque vivante et intelligente, permettant la recherche sémantique, la construction automatisée de cohortes et l'aide au diagnostic clinique avec une précision et une efficacité supérieures aux méthodes traditionnelles.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

Unlocking High-Fidelity Analog Joint Source-Channel Coding on Standard Digital Transceivers

Ce papier présente D2AJSCC, un cadre innovant qui permet le déploiement de codage source-canal analogique haute fidélité sur des couches physiques numériques standard en exploitant la structure des sous-porteuses OFDM pour synthétiser des ondes analogiques et en utilisant un réseau de substitution différentiable pour assurer un entraînement de bout en bout, comblant ainsi l'écart entre la promesse théorique du JSCC analogique et sa mise en œuvre pratique sur des infrastructures existantes.

Shumin Yao, Hao Chen, Yaping Sun, Nan Ma, Xiaodong Xu, Qinglin Zhao, Shuguang CuiWed, 11 Ma🔢 math

From Verification to Amplification: Auditing Reverse Image Search as Algorithmic Gatekeeping in Visual Misinformation Fact-checking

Cette étude audite l'algorithme de recherche d'images inversée de Google et révèle qu'il fonctionne comme un garde-fou inefficace contre la désinformation visuelle, car les résultats de vérification des faits y sont minoritaires et noyés dans un flot d'informations irrélevantes et de fausses images récurrentes.

Cong Lin, Yifei Chen, Jiangyue Chen, Yingdan Lu, Yilang Peng, Cuihua ShenWed, 11 Ma💻 cs

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Le papier présente DataFactory, un cadre collaboratif multi-agents qui surpasse les approches LLM existantes pour le questionnement sur les tableaux en combinant une orchestration de raisonnement, une transformation automatique des données en graphes de connaissances et une délibération flexible entre agents spécialisés pour améliorer la précision et réduire les hallucinations.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Le papier présente TA-Mem, un cadre innovant d'extraction et de récupération autonome de mémoire assisté par des outils pour les grands modèles de langage, conçu pour surmonter les limites des fenêtres de contexte dans les conversations à long terme en adaptant dynamiquement la recherche d'informations via une base de données multi-indexée.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Le papier présente PRECEPT, un cadre unifié d'adaptation au moment du test qui améliore la fiabilité des agents LLM en combinant une récupération de règles déterministe, une mémoire conflictuelle et une évolution de prompts guidée par le Pareto, permettant ainsi de surmonter les dégradations de récupération, d'assurer une généralisation compositionnelle robuste et de récupérer efficacement face aux connaissances obsolètes ou adverses.

Arash ShahmansooriWed, 11 Ma🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Cette étude propose un cadre de classification automatisé pour la gestion des risques cardiaques chez les personnes âgées, démontrant qu'une architecture Transformer personnalisée surpassant les modèles classiques et les grands modèles de langage génériques permet d'exploiter efficacement les dossiers médicaux électroniques non structurés pour une stratification clinique précise.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van EsWed, 11 Ma🤖 cs.AI