cs.CL articles | Gist.Science

FINEST: Improving LLM Responses to Sensitive Topics Through Fine-Grained Evaluation

Ce papier présente FINEST, une taxonomie d'évaluation fine-granulaire pour les sujets sensibles qui améliore significativement la pertinence et la sécurité des réponses des modèles de langage en identifiant des erreurs spécifiques dans le contenu, la logique et l'adéquation.

Juhyun Oh, Nayeon Lee, Chani Jung + 5 more2026-03-05💬 cs.CL

BeamPERL: Parameter-Efficient RL with Verifiable Rewards Specializes Compact LLMs for Structured Beam Mechanics Reasoning

L'étude BeamPERL démontre que l'apprentissage par renforcement avec des récompenses vérifiables améliore les performances d'un modèle de langage compact sur la mécanique des poutres, mais révèle que cette compétence repose sur l'adoption de modèles de résolution procéduraux plutôt que sur une véritable internalisation des principes physiques, limitant ainsi la généralisation face à des changements topologiques.

Tarjei Paule Hage, Markus J. Buehler2026-03-05🔬 cond-mat.mtrl-sci

VietNormalizer: An Open-Source, Dependency-Free Python Library for Vietnamese Text Normalization in TTS and NLP Applications

Le papier présente VietNormalizer, une bibliothèque Python open-source et sans dépendance qui normalise le texte vietnamien en convertissant les nombres, dates, devises, acronymes et termes étrangers en formes parlables pour les applications de synthèse vocale et de traitement du langage naturel.

Hung Vu Nguyen, Loan Do, Thanh Ngoc Nguyen + 5 more2026-03-05💬 cs.CL

Traces of Social Competence in Large Language Models

Cette étude révèle que la performance des grands modèles de langage aux tests de fausses croyances dépend non seulement de leur taille, mais aussi de l'influence causale du vocabulaire des états mentaux, qui peut fausser leur raisonnement social en favorisant des réponses stéréotypées.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn2026-03-05💬 cs.CL

Code Fingerprints: Disentangled Attribution of LLM-Generated Code

Cet article propose le DCAN, un réseau d'apprentissage par contraste capable d'attribuer du code généré par des modèles de langage spécifiques en séparant les informations sémantiques des signatures stylistiques, et valide cette approche grâce à un nouveau benchmark à grande échelle couvrant quatre LLMs et quatre langages de programmation.

Jiaxun Guo, Ziyuan Yang, Mengyu Sun + 3 more2026-03-05💬 cs.CL

When Do Language Models Endorse Limitations on Human Rights Principles?

Cette étude évalue comment onze grands modèles de langage naviguent les compromis liés à la Déclaration universelle des droits de l'homme à travers 1 152 scénarios multilingues, révélant des biais systématiques qui privilégient la limitation des droits économiques et sociaux par rapport aux droits civils et politiques, avec des variations significatives selon la langue et une forte vulnérabilité au guidage par les invites.

Keenan Samway, Nicole Miu Takagi, Rada Mihalcea + 4 more2026-03-05💬 cs.CL

Retrieval or Representation? Reassessing Benchmark Gaps in Multilingual and Visually Rich RAG

Cette étude démontre que les améliorations observées dans les benchmarks de RAG multilingue et visuel sont principalement dues à une meilleure représentation des documents plutôt qu'à des mécanismes de récupération avancés, soulignant ainsi la nécessité d'évaluations décomposées pour distinguer l'apport de la transcription de celui de la récupération.

Martin Asenov, Kenza Benkirane, Dan Goldwater + 1 more2026-03-05💬 cs.CL

Memex(RL): Scaling Long-Horizon LLM Agents via Indexed Experience Memory

Ce papier présente Memex, un mécanisme de mémoire indexée optimisé par apprentissage par renforcement (MemexRL) qui permet aux agents LLM d'exécuter des tâches à long horizon en conservant des preuves complètes dans une base externe tout en maintenant un contexte de travail compact, surmontant ainsi les limites des fenêtres de contexte traditionnelles sans perte d'information.

Zhenting Wang, Huancheng Chen, Jiayun Wang + 1 more2026-03-05🤖 cs.LG

Causality Elicitation from Large Language Models

Cet article propose un pipeline pour extraire des hypothèses causales plausibles encodées dans les grands modèles de langage en générant des documents, en y identifiant des événements normalisés et en appliquant des méthodes de découverte causale pour construire des graphes candidats inspectables.

Takashi Kameyama, Masahiro Kato, Yasuko Hio + 2 more2026-03-05🤖 cs.AI

Position: Vector Prompt Interfaces Should Be Exposed to Enable Customization of Large Language Models

Ce papier de position plaide pour l'exposition des entrées de prompts vectoriels par les fournisseurs de modèles, car ils offrent une méthode de personnalisation plus évolutive et stable que les prompts textuels, tout en respectant les contraintes de déploiement et de sécurité.

Liangwei Yang, Shiyu Wang, Haolin Chen + 12 more2026-03-05✓ Author reviewed ⓘ💬 cs.CL

The Company You Keep: How LLMs Respond to Dark Triad Traits

Cette étude examine comment les grands modèles de langage réagissent aux traits de la Triade sombre (Machiavélisme, Narcissisme et Psychopathie) dans les prompts utilisateurs, révélant que bien qu'ils adoptent majoritairement un comportement correctif, ils peuvent parfois renforcer des comportements nuisibles, ce qui soulève des enjeux cruciaux pour la conception de systèmes conversationnels plus sûrs.

Zeyi Lu, Angelica Henestrosa, Pavel Chizhov + 1 more2026-03-05💬 cs.CL

$V_1$ : Unifying Generation and Self-Verification for Parallel Reasoners

Le papier présente $V_1$ , un cadre unifiant la génération et la vérification par apprentissage par renforcement de paires, qui améliore significativement les performances de raisonnement et de génération de code grâce à un classement par tournoi guidé par l'incertitude et un entraînement conjoint du générateur et du vérificateur.

Harman Singh, Xiuyu Li, Kusha Sareen + 14 more2026-03-05💬 cs.CL

World Properties without World Models: Recovering Spatial and Temporal Structure from Co-occurrence Statistics in Static Word Embeddings

Cette étude démontre que la récupération linéaire de structures spatiales et temporelles dans les représentations internes des modèles de langage ne prouve pas l'existence de modèles du monde internes, car une grande partie de cette structure est déjà latente dans les statistiques de co-occurrence des mots des embeddings statiques.

Elan Barenholtz2026-03-05🤖 cs.AI

AILS-NTUA at SemEval-2026 Task 12: Graph-Based Retrieval and Reflective Prompting for Abductive Event Reasoning

Ce papier présente le système gagnant de l'équipe AILS-NTUA pour la tâche 12 de SemEval-2026, qui allie récupération basée sur des graphes et raisonnement abductif par réflexion pour atteindre une précision de 0,95, tout en identifiant des biais inductifs systématiques partagés par 14 modèles dans le raisonnement causal multi-étiquettes.

Nikolas Karafyllis, Maria Lymperaiou, Giorgos Filandrianos + 2 more2026-03-05💬 cs.CL

Pointer-CAD: Unifying B-Rep and Command Sequences via Pointer-based Edges & Faces Selection

Le papier présente Pointer-CAD, un cadre de génération de modèles CAO par LLM qui surmonte les limites des séquences de commandes en intégrant une sélection d'entités géométriques via des pointeurs, permettant ainsi la création de structures complexes et la réduction des erreurs topologiques grâce à un jeu de données de 575 000 modèles.

Dacheng Qi, Chenyu Wang, Jingwei Xu + 6 more2026-03-05💬 cs.CL

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

Cet article propose le DMAST, un cadre d'entraînement de sécurité adversaire en deux modalités et trois étapes qui, en formalisant l'interaction agent-attaquant comme un jeu à somme nulle, renforce considérablement la robustesse et l'efficacité des agents web multimodaux face aux attaques croisées exploitant à la fois les captures d'écran et les arbres d'accessibilité.

Haoyu Liu, Dingcheng Li, Lukas Rutishauser + 1 more2026-03-05🤖 cs.AI

$τ$ -Knowledge: Evaluating Conversational Agents over Unstructured Knowledge

Ce papier présente $Ï$ -Knowledge, un nouveau benchmark évaluant la capacité des agents conversationnels à coordonner des connaissances non structurées et des outils dans des scénarios réalistes de support client fintech, révélant que même les modèles de pointe peinent à atteindre une fiabilité suffisante dans ces tâches complexes.

Quan Shi, Alexandra Zytek, Pedram Razavi + 2 more2026-03-05🤖 cs.AI

TaxonRL: Reinforcement Learning with Intermediate Rewards for Interpretable Fine-Grained Visual Reasoning

Le papier présente TaxonRL, une approche d'apprentissage par renforcement utilisant des récompenses intermédiaires pour décomposer le raisonnement visuel en prédictions taxonomiques hiérarchiques, permettant ainsi d'atteindre une précision supérieure à celle des humains sur la tâche de discrimination fine d'espèces tout en garantissant l'interprétabilité des décisions.

Maximilian von Klinski, Maximilian Schall2026-03-05💬 cs.CL

The 2020s Political Economy of Machine Translation

Cet article examine comment, dans les années 2020, le déploiement de la traduction automatique réduira les barrières linguistiques pour le commerce et la communication, tout en créant de nouveaux défis inégaux pour la diffusion des idées, l'innovation et la croissance économique.

Steven Weber2026-03-04💬 cs.CL

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Cet article propose les « Thought Flow Nets », une méthode inspirée de la dialectique hégélienne permettant aux modèles d'affiner leurs réponses par des itérations d'auto-correction, ce qui améliore non seulement leurs performances mais aussi la perception et les résultats des utilisateurs humains.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

← Précédent Suivant →

cs.CL