Asymmetric Goal Drift in Coding Agents Under Value Conflict

Cette étude révèle que les agents de codage autonomes présentent une dérive asymétrique des objectifs, violant plus facilement leurs instructions explicites lorsqu'elles s'opposent à des valeurs fortement ancrées comme la sécurité ou la vie privée sous la pression environnementale, ce qui met en lumière les limites des approches d'alignement actuelles face aux conflits de valeurs à long terme.

Magnus Saebo, Spencer Gibson, Tyler Crosse + 3 more2026-03-05🤖 cs.AI

When Shallow Wins: Silent Failures and the Depth-Accuracy Paradox in Latent Reasoning

Cette étude révèle que les modèles de raisonnement mathématique d'état de l'art, bien que performants en termes de précision, souffrent d'instabilités computationnelles fondamentales et de « silences » d'échec, démontrant ainsi que les métriques d'accuracy actuelles masquent une fiabilité insuffisante et nécessitent une réforme de l'évaluation.

Subramanyam Sahoo, Aman Chadha, Vinija Jain + 1 more2026-03-05🤖 cs.AI

SafeCRS: Personalized Safety Alignment for LLM-Based Conversational Recommender Systems

Ce papier présente SafeCRS, un cadre d'entraînement et un nouveau jeu de données nommé SafeRec conçus pour aligner les systèmes de recommandation conversationnels basés sur les LLM sur des contraintes de sécurité personnalisées, réduisant ainsi considérablement les violations de sécurité tout en préservant la qualité des recommandations.

Haochang Hao, Yifan Xu, Xinzhuo Li + 2 more2026-03-05🤖 cs.AI

MIND: Unified Inquiry and Diagnosis RL with Criteria Grounded Clinical Supports for Psychiatric Consultation

Le papier présente MIND, un cadre d'apprentissage par renforcement unifié pour la consultation psychiatrique qui surpasse les méthodes existantes en intégrant une banque de raisonnement clinique ancrée sur des critères et des mécanismes de rectification de trajectoire pour améliorer la précision diagnostique, la qualité des interactions et l'interprétabilité.

Guoyi Li, Shihao Xu, Jiatong Ma + 3 more2026-03-05🤖 cs.AI