Link Prediction for Event Logs in the Process Industry

Cet article présente un modèle de liaison d'enregistrements, défini comme une tâche de résolution de coréférence inter-document, qui combine des techniques de déduction linguistique naturelle et de similarité sémantique pour améliorer la qualité des données et la prédiction de liens dans les journaux d'événements fragmentés de l'industrie des procédés allemande, surpassant ainsi les approches de référence de 28 %.

Anastasia Zhukova, Thomas Walton, Christian E. Lobmüller + 1 more2026-03-04💬 cs.CL

No Answer Needed: Predicting LLM Answer Accuracy from Question-Only Linear Probes

Cette étude démontre qu'il est possible de prédire la justesse des réponses d'un grand modèle de langage avant même la génération de texte en analysant ses activations internes via des sondes linéaires, révélant ainsi un signal de confiance et de vérité qui généralise bien, à l'exception notable des tâches de raisonnement mathématique.

Iván Vicente Moreno Cencerrado, Arnau Padrés Masdemont, Anton Gonzalvez Hawthorne + 2 more2026-03-04💬 cs.CL

Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

Cet article propose une méthode de filtrage de données textuelles bruyantes basée sur les statistiques de fréquence des termes (priors) qui, en remplaçant le calcul coûteux de la perplexité par une approche sans inférence de modèle, offre une alternative rapide et performante pour l'entraînement de modèles de langage sur divers corpus multilingues et symboliques.

Yeongbin Seo, Gayoung Kim, Jaehyung Kim + 1 more2026-03-04💬 cs.CL

Bridging Kolmogorov Complexity and Deep Learning: Asymptotically Optimal Description Length Objectives for Transformers

Cet article propose un cadre théorique reliant la complexité de Kolmogorov aux Transformers en démontrant l'existence d'objectifs de longueur de description asymptotiquement optimes, tout en illustrant via une approche variationnelle à base de mélanges gaussiens que l'optimisation de ces objectifs pour améliorer la généralisation reste un défi majeur.

Peter Shaw, James Cohan, Jacob Eisenstein + 1 more2026-03-04💬 cs.CL

Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

Cette étude théorique démontre que, bien que l'apprentissage par renforcement améliore la planification des modèles de langage en évitant les solutions erronées du fine-tuning supervisé grâce à l'exploration, les méthodes de gradient de politique souffrent d'un effondrement de la diversité, contrairement à l'apprentissage Q qui préserve cette diversité mais nécessite une conception rigoureuse des récompenses pour éviter les biais.

Siwei Wang, Yifei Shen, Haoran Sun + 5 more2026-03-04📊 stat

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Cette étude démontre que la nouveauté des n-grammes est un indicateur insuffisant de la créativité textuelle car elle néglige l'adéquation pragmatique, révélant que la majorité des expressions très novatrices sont jugées non créatives et que les modèles de langage actuels peinent à distinguer la véritable créativité des productions non pragmatiques.

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan + 1 more2026-03-04💬 cs.CL

AccurateRAG: A Framework for Building Accurate Retrieval-Augmented Question-Answering Applications

Ce papier présente AccurateRAG, un cadre innovant optimisant le développement et les performances des applications de réponse aux questions par génération augmentée par récupération (RAG) grâce à une pipeline complète allant du traitement des données à l'évaluation, surpassant ainsi les méthodes existantes sur des benchmarks.

Linh The Nguyen, Chi Tran, Dung Ngoc Nguyen + 3 more2026-03-04💬 cs.CL

Mitigating Over-Refusal in Aligned Large Language Models via Inference-Time Activation Energy

Cet article présente l'Energy Landscape Steering (ELS), un cadre novateur et sans réentraînement qui atténue le sur-rejet dans les grands modèles de langage alignés en guidant dynamiquement leurs activations internes vers des états désirables via un modèle externe basé sur l'énergie, améliorant ainsi la conformité aux requêtes bénignes tout en préservant la sécurité.

Eric Hanchen Jiang, Weixuan Ou, Run Liu + 8 more2026-03-04📊 stat