cs.IR articles | Gist.Science

RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentanglement

Ce papier présente RED, un réseau de défloutage de mouvement guidé par des événements qui améliore la robustesse face aux données manquantes grâce à une stratégie de perturbation et à une fusion sélective des modalités après un mécanisme de disentanglement.

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao JiangMon, 09 Ma💻 cs

GaiaFlow: Semantic-Guided Diffusion Tuning for Carbon-Frugal Search

Le papier présente GaiaFlow, un cadre innovant qui optimise l'équilibre entre la précision de la recherche et la durabilité environnementale en utilisant un réglage de diffusion guidé sémantiquement et des protocoles d'arrêt adaptatif pour réduire l'empreinte carbone des systèmes de recherche neuronaux.

Rong Fu, Jia Yee Tan, Chunlei Meng, Shuo Yin, Xiaowen Ma, Wangyu Wu, Muge Qi, Guangzhen Yao, Zhaolu Kang, Zeli Su, Simon FongMon, 09 Ma🤖 cs.LG

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Ce papier introduit de nouvelles métriques pour évaluer les agents LLM dans le contexte du « Text-to-Big SQL », démontrant que les mesures traditionnelles de Text-to-SQL sont insuffisantes pour capturer les impacts réels de l'échelle des données sur les coûts, la latence et l'efficacité d'exécution.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-ArtigasMon, 09 Ma💬 cs.CL

Unified Learning-to-Rank for Multi-Channel Retrieval in Large-Scale E-Commerce Search

Cet article présente un modèle unifié d'apprentissage du classement pour la fusion de canaux de recherche hétérogènes dans le commerce électronique à grande échelle, qui optimise les conversions utilisateurs en tenant compte des signaux comportementaux et des objectifs spécifiques à chaque canal, surpassant ainsi les méthodes de fusion traditionnelles tout en respectant les contraintes de latence sur Target.com.

Aditya Gaydhani, Guangyue Xu, Dhanush Kamath, Ankit Singh, Alex LiMon, 09 Ma💻 cs

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

Ce papier présente Aletheia, une extension de navigateur innovante alimentée par des modèles de langage et la génération augmentée par récupération (RAG) qui détecte les fausses nouvelles avec des explications fondées sur des preuves et favorise l'engagement utilisateur, surpassant les solutions existantes tant sur le plan de la performance technique que de l'utilisabilité.

Dorsaf Sallami, Esma AïmeurMon, 09 Ma💬 cs.CL

VDCook:DIY video data cook your MLLMs

VDCook est une plateforme auto-évolutive qui permet aux chercheurs de générer et de mettre à jour continuellement des ensembles de données vidéo spécialisés pour les modèles multimodaux via des requêtes en langage naturel, en combinant récupération de vidéos réelles et synthèse contrôlée.

Chengwei WuMon, 09 Ma🤖 cs.AI

AutothinkRAG: Complexity-Aware Control of Retrieval-Augmented Reasoning for Image-Text Interaction

Le papier présente AutoThinkRAG, un cadre innovant qui améliore la réponse aux questions sur des documents complexes en allouant dynamiquement les chemins de raisonnement via un routeur de complexité et en découplant l'interprétation visuelle de la déduction logique pour optimiser à la fois les performances et les coûts d'inférence.

Jiashu Yang, Chi Zhang, Abudukelimu Wuerkaixi, Xuxin Cheng, Cao Liu, Ke Zeng, Xu Jia, Xunliang CaiMon, 09 Ma💻 cs

CBR-to-SQL: Rethinking Retrieval-based Text-to-SQL using Case-based Reasoning in the Healthcare Domain

Cet article propose CBR-to-SQL, un cadre inspiré du raisonnement à partir de cas qui améliore la génération de requêtes SQL à partir de questions en langage naturel dans le domaine de la santé grâce à une recherche en deux étapes, surpassant les approches RAG standard en précision, efficacité et robustesse sur le jeu de données MIMICSQL.

Hung Nguyen, Hans Moen, Pekka MarttinenMon, 09 Ma🤖 cs.AI

The DSA's Blind Spot: Algorithmic Audit of Advertising and Minor Profiling on TikTok

Cette étude démontre que, bien que TikTok respecte formellement l'interdiction du ciblage publicitaire pour les mineurs imposée par le Digital Service Act, une audit algorithmique révèle que les contenus promotionnels non étiquetés et le marketing d'influence exploitent une définition restrictive de la publicité pour contourner cette protection en ciblant efficacement les adolescents.

Sara Solarova, Matej Mosnar, Matus Tibensky, Jan Jakubcik, Adrian Bindas, Simon Liska, Filip Hossner, Matúš Mesarčík, Ivan SrbaMon, 09 Ma🤖 cs.AI

Balancing Domestic and Global Perspectives: Evaluating Dual-Calibration and LLM-Generated Nudges for Diverse News Recommendation

Cette étude évalue l'efficacité d'une incitation algorithmique de double calibration et d'une incitation basée sur les grands modèles de langage pour diversifier la consommation de nouvelles (domestiques et mondiales) auprès de 120 lecteurs américains, démontrant que les incitations algorithmiques augmentent la diversité de lecture et peuvent modifier durablement les habitudes de consommation.

Ruixuan Sun, Matthew Zent, Minzhu Zhao, Thanmayee Boyapati, Xinyi Li, Joseph A. KonstanMon, 09 Ma🤖 cs.AI

Sensitivity-Aware Retrieval-Augmented Intent Clarification

Ce papier propose une approche en trois étapes pour concevoir un agent conversationnel à clarification d'intention augmentée par la recherche, capable de protéger les données sensibles dans des domaines critiques comme la santé ou le juridique, tout en évaluant le compromis entre sécurité et utilité du système.

Maik LarooijMon, 09 Ma🤖 cs.AI

ChatShopBuddy: Towards Reliable Conversational Shopping Agents via Reinforcement Learning

Ce papier présente ChatShopBuddy, un agent d'achat conversationnel optimisé par apprentissage par renforcement grâce à une nouvelle méthodologie intégrant un benchmark hiérarchique, une modélisation de récompense hiérarchique et une optimisation de politique contrastive dynamique pour concilier précision, persuasivité et efficacité opérationnelle.

Yiruo Cheng, Kelong Mao, Tianhao Li, Jiejun Tan, Ji-Rong Wen, Zhicheng DouMon, 09 Ma💻 cs

Efficient Vector Search in the Wild: One Model for Multi-K Queries

Le papier présente OMEGA, une méthode de recherche apprise généralisable à n'importe quel K qui, en s'entraînant uniquement sur K=1 et en utilisant un raffinement dynamique, surpasse les méthodes existantes en termes de latence et de temps de prétraitement tout en maintenant une haute précision pour des requêtes multi-K.

Yifan Peng, Jiafei Fan, Xingda Wei, Sijie Shen, Rong Chen, Jianning Wang, Xiaojian Luo, Wenyuan Yu, Jingren Zhou, Haibo ChenMon, 09 Ma🤖 cs.LG

MLLMRec-R1: Incentivizing Reasoning Capability in Large Language Models for Multimodal Sequential Recommendation

Le papier propose MLLMRec-R1, un cadre de raisonnement efficace et stable basé sur l'optimisation de politique relative de groupe (GRPO) pour la recommandation séquentielle multimodale, qui surmonte les coûts computationnels élevés et l'inflation des récompenses en textualisant les signaux visuels et en affinant les supervisions de type chaîne de pensée.

Yu Wang, Yonghui Yang, Le Wu, Jiancan Wu, Hefei Xu, Hui LinMon, 09 Ma💻 cs

Efficient, Property-Aligned Fan-Out Retrieval via RL-Compiled Diffusion

Le papier propose R4T, une méthode qui utilise l'apprentissage par renforcement pour synthétiser des données d'entraînement alignées sur des objectifs d'ensemble, permettant ainsi d'entraîner un récupérateur basé sur la diffusion qui améliore la qualité de la recherche tout en réduisant considérablement la latence par rapport aux approches existantes.

Pengcheng Jiang, Judith Yue Li, Moonkyung Ryu, R. Lily Hu, Kun Su, Zhong Yi Wan, Liam Hebert, Hao Peng, Jiawei Han, Dima Kuzmin, Craig BoutilierMon, 09 Ma🤖 cs.LG

CARROT: A Learned Cost-Constrained Retrieval Optimization System for RAG

Le papier présente CARROT, un système d'optimisation de la récupération pour la génération augmentée par récupération (RAG) qui utilise une recherche arborescente Monte Carlo et un agent de configuration pour sélectionner et ordonnancer dynamiquement les meilleurs fragments de contexte tout en respectant les contraintes de coût et en évitant la dégradation de la qualité due à la non-monotonie de l'utilité des données.

Ziting Wang, Haitao Yuan, Wei Dong, Gao Cong, Feifei LiFri, 13 Ma💬 cs.CL

Tuning-Free LLM Can Build A Strong Recommender Under Sparse Connectivity And Knowledge Gap Via Extracting Intent

Ce papier présente IKGR, un cadre de recommandation sans ajustement qui construit un graphe de connaissances centré sur les intentions extraites par un LLM pour surmonter la parcimonie des données et les problèmes de démarrage à froid en reliant explicitement les utilisateurs et les articles à des nœuds d'intention.

Wenqing Zheng, Noah Fatsi, Daniel Barcklow, Dmitri Kalaev, Steven Yao, Owen Reinert, C. Bayan Bruss, Daniele RosaFri, 13 Ma🤖 cs.AI

Refine-POI: Reinforcement Fine-Tuned Large Language Models for Next Point-of-Interest Recommendation

Le papier propose Refine-POI, un cadre qui améliore la recommandation de lieux d'intérêt (POI) suivante en combinant une quantification par carte auto-organisée hiérarchique pour générer des identifiants sémantiques topologiquement cohérents et un affinage par renforcement pour optimiser la génération de listes de recommandations top-k, surpassant ainsi les méthodes existantes sur plusieurs jeux de données réels.

Peibo Li, Shuang Ao, Hao Xue, Yang Song, Maarten de Rijke, Johan Barthélemy, Tomasz Bednarz, Flora D. SalimFri, 13 Ma🤖 cs.LG

Seq vs Seq: An Open Suite of Paired Encoders and Decoders

Ce papier présente la suite de modèles Ettin, une collection open-source de paires d'encodeurs et de décodeurs de tailles variées entraînés sur les mêmes données, démontrant que les architectures spécialisées surpassent les modèles adaptés par transfert pour leurs tâches respectives tout en établissant de nouveaux états de l'art.

Orion Weller, Kathryn Ricci, Marc Marone, Antoine Chaffin, Dawn Lawrie, Benjamin Van DurmeFri, 13 Ma💬 cs.CL

TURA: Tool-Augmented Unified Retrieval Agent for AI Search

Ce papier présente TURA, un agent de recherche unifié et assisté par des outils qui comble le fossé entre la génération augmentée par la récupération (RAG) statique et les sources d'information dynamiques en temps réel grâce à un cadre innovant en trois étapes intégrant la décomposition des intentions, la planification de tâches et l'exécution efficace d'outils.

Zhejun Zhao, Yuchen Li, Alley Liu, Yuehu Dong, Xiaolong Wei, Lixue Zheng, Pingsheng Liu, Dongdong Shen, Long Xia, Jiashu Zhao, Dawei YinFri, 13 Ma💬 cs.CL

← Précédent Suivant →