EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Ce papier présente EditReward, un modèle de récompense open-source entraîné sur un vaste ensemble de données de préférences humaines annotées par des experts, qui surpasse les modèles existants en alignement avec les préférences humaines et permet d'identifier des sous-ensembles de données de haute qualité pour améliorer l'entraînement des modèles d'édition d'images.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

RLP: Reinforcement as a Pretraining Objective

Ce papier présente RLP, une nouvelle méthode de préentraînement qui intègre l'apprentissage par renforcement en traitant la chaîne de pensée comme une action exploratoire récompensée par le gain d'information, permettant ainsi d'acquérir des capacités de raisonnement indépendantes dès la phase de préentraînement et d'améliorer significativement les performances sur des tâches complexes de mathématiques et de sciences.

Ali Hatamizadeh, Syeda Nahida Akter, Shrimai Prabhumoye + 5 more2026-03-03💬 cs.CL

PoLi-RL: A Point-to-List Reinforcement Learning Framework for Conditional Semantic Textual Similarity

Le papier présente PoLi-RL, un cadre d'apprentissage par renforcement novateur de type « point-to-list » qui surmonte les limites des approches existantes pour la similarité sémantique textuelle conditionnelle (C-STS) grâce à un curriculum en deux étapes et un mécanisme de récompense de classement parallèle, établissant ainsi un nouvel état de l'art sur le benchmark officiel.

Zixin Song, Bowen Zhang, Qian-Wen Zhang + 3 more2026-03-03💬 cs.CL

Training Large Language Models To Reason In Parallel With Global Forking Tokens

Cet article propose une méthode d'entraînement nommée SSFT, combinée à une optimisation de politique (GFPO), qui utilise des tokens de bifurcation globaux pour préserver la diversité des modes de raisonnement parallèle et améliorer les performances des modèles de langage sur des tâches complexes de mathématiques et de génération de code.

Sheng Jia, Xiao Wang, Shiva Prasad Kasiviswanathan2026-03-03💬 cs.CL

MASA: Rethinking the Representational Bottleneck in LoRA with Multi-A Shared Adaptation

Le papier présente MASA, une méthode d'adaptation efficace qui surmonte le goulot d'étranglement représentationnel de LoRA en remplaçant sa unique matrice de projection descendante par un ensemble asymétrique d'experts spécialisés, améliorant ainsi les performances sur diverses tâches tout en conservant un nombre de paramètres apprenables comparable.

Qin Dong, Yuntian Tang, Heming Jia + 7 more2026-03-03💬 cs.CL

Exposing Citation Vulnerabilities in Generative Engines

Cette étude révèle que les moteurs de génération d'answers sont vulnérables aux attaques par empoisonnement en raison de la faible barrière d'injection de contenu des sources citées, un risque particulièrement élevé dans le contexte politique américain par rapport au japonais, et propose des critères d'évaluation pour mieux identifier et atténuer ces menaces.

Riku Mochizuki, Shusuke Komatsu, Souta Noguchi + 1 more2026-03-03💬 cs.CL

LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding

LAD-RAG est un cadre RAG dynamique et conscient de la mise en page qui améliore la compréhension des documents visuellement riches en construisant un graphe symbolique pour capturer la structure et les dépendances inter-pages, permettant ainsi une récupération adaptative des preuves par un agent LLM et dépassant les méthodes conventionnelles en précision et en rappel.

Zhivar Sourati, Zheng Wang, Marianne Menglin Liu + 8 more2026-03-03💬 cs.CL

ExPO-HM: Learning to Explain-then-Detect for Hateful Meme Detection

Le papier présente ExPO-HM, une méthode novatrice qui améliore la détection des mèmes haineux en combinant un apprentissage supervisé, une optimisation par politique avec apprentissage par curriculum et une entropie décisionnelle conditionnelle pour générer des explications interprétables tout en surpassant les approches précédentes sur plusieurs benchmarks.

Jingbiao Mei, Mingsheng Sun, Jinghong Chen + 4 more2026-03-03💬 cs.CL

Universal Robust Speech Adaptation for Cross-Domain Speech Recognition and Enhancement

Ce papier présente URSA-GAN, un cadre génératif unifié qui utilise une architecture à double encodage et une perturbation stochastique dynamique pour adapter robustement la reconnaissance et l'amélioration de la parole à des conditions de bruit et de canal inconnues, réduisant ainsi significativement les erreurs et améliorant les métriques perceptuelles.

Chien-Chun Wang, Hung-Shin Lee, Hsin-Min Wang + 1 more2026-03-03⚡ eess

Deepfake Word Detection by Next-token Prediction using Fine-tuned Whisper

Cet article présente une méthode rentable de détection de mots deepfake qui consiste à affiner le modèle Whisper pour identifier les mots synthétiques lors de la transcription par prédiction de jeton suivant, en utilisant des données partiellement vocodées pour réduire les coûts de collecte, tout en démontrant des performances compétitives sur des données in-domaine et un potentiel de généralisation à améliorer sur des données out-of-domaine.

Hoan My Tran, Xin Wang, Wanying Ge + 2 more2026-03-03⚡ eess