cs.CL articles | Gist.Science

VeriTrail: Closed-Domain Hallucination Detection with Traceability

Le papier présente VeriTrail, une méthode pionnière de détection d'hallucinations en domaine fermé offrant une traçabilité complète des sources d'erreur et de la fidélité du contenu, surpassant les méthodes existantes sur des processus génératifs simples et multiples grâce à l'utilisation de nouveaux jeux de données annotés.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

Ce papier présente RedTeamCUA, un cadre d'évaluation adversaire innovant intégrant un environnement hybride web-OS pour tester la vulnérabilité des agents d'utilisation d'ordinateur aux injections de prompts indirects, révélant des risques de sécurité critiques même pour les modèles les plus avancés.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Ce papier présente CityLens, un benchmark complet évaluant les capacités des grands modèles vision-langage à prédire des indicateurs socioéconomiques urbains à partir d'images satellitaires et de vues de rue dans 17 villes mondiales, révélant à la fois leur potentiel et leurs limites actuelles pour la planification urbaine durable.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Ce travail présente OmniSpatial, un benchmark complet et difficile fondé sur la psychologie cognitive pour évaluer le raisonnement spatial des modèles vision-langage, révélant leurs limites actuelles et proposant des stratégies d'amélioration telles que PointGraph et SpatialCoT.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Cet article propose une méthode d'adaptation méta-learnée par distillation de prompts souples à partir de caractéristiques visuelles pertinentes, permettant aux modèles multimodaux de grande taille d'améliorer significativement leurs performances en question-réponse visuelle avec peu d'exemples en surmontant les limites de l'apprentissage par contexte.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

VINCIE: Unlocking In-context Image Editing from Video

VINCIE est une approche novatrice qui apprend l'édition d'images en contexte directement à partir de vidéos en utilisant un transformateur de diffusion à causalité bloc et un benchmark multi-tours, démontrant ainsi des performances de pointe sans dépendre de pipelines ou de modèles experts spécifiques.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Ce travail présente FAME, un cadre d'apprentissage multimodal qui améliore l'équité des prédictions sur les dossiers médicaux électroniques en pondérant dynamiquement les différentes modalités selon leur contribution à la réduction des biais, tout en optimisant les performances globales.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Les auteurs proposent LA-CDM, un agent linguistique entraîné par apprentissage par renforcement et supervisé pour simuler un processus de décision clinique itératif et hypothético-déductif, démontrant ainsi une amélioration de la précision diagnostique et de l'efficacité sur le jeu de données MIMIC-CDM.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

L'article présente AgentSynth, un pipeline évolutif et peu coûteux qui génère automatiquement des tâches informatiques complexes et diversifiées pour entraîner des agents généralistes, en exploitant l'asymétrie d'information pour créer des trajectoires réalistes à un coût bien inférieur à l'annotation humaine.

Jingxu Xie, Dylan Xu, Xuandong Zhao + 1 more2026-03-03💬 cs.CL

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Le papier présente GenRecal, un cadre de distillation généraliste qui surmonte les hétérogénéités architecturales des modèles vision-langage en alignant leurs représentations via un recalibrateur, permettant ainsi de transférer efficacement les connaissances des grands modèles vers des versions plus petites et performantes.

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro + 2 more2026-03-03💬 cs.CL

OJBench: A Competition Level Code Benchmark For Large Language Models

Ce papier présente OJBench, un nouveau benchmark compétitif composé de 232 problèmes de programmation issus de l'OI et de l'ICPC, qui révèle que même les modèles de raisonnement les plus avancés peinent à résoudre des défis de code de niveau concours.

Zhexu Wang, Yiping Liu, Yejie Wang + 9 more2026-03-03💬 cs.CL

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Cet article propose un cadre théorique de décomposition du bruit pour analyser les échecs des LLMs sur de longs contextes et démontre que l'approche par découpage et agrégation (multi-agent chunking) permet de surpasser des modèles avancés en traitement unique grâce à une gestion optimisée des dépendances croisées, de la confusion contextuelle et de l'intégration des résultats.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

L'article présente LongWriter-Zero, une approche fondée sur l'apprentissage par renforcement qui permet à un modèle de langage de générer des textes ultra-longs de haute qualité sans aucune donnée d'entraînement annotée ou synthétique, surpassant ainsi les méthodes traditionnelles et des modèles beaucoup plus grands.

Yuhao Wu, Yushi Bai, Zhiqiang Hu + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Cet article présente TTSDS2, une métrique améliorée et un ensemble de ressources incluant une base de données de scores d'opinion et un benchmark multilingue, conçus pour évaluer de manière fiable les systèmes de synthèse vocale dont la qualité est indistinguable de la parole humaine.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

Bien que l'entraînement par renforcement post-formation (RPT) améliore significativement les capacités de raisonnement des grands modèles de langage sur des tâches similaires aux données d'ajustement, cette étude démontre que ces gains se généralisent de manière incohérente et peuvent disparaître sur des domaines aux schémas de raisonnement différents.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann + 4 more2026-03-03💬 cs.CL

Cognitive models can reveal interpretable value trade-offs in language models

Cet article démontre que l'application de modèles cognitifs aux grands modèles de langage permet de révéler et de quantifier de manière interprétable les compromis de valeurs, en montrant comment ces dynamiques évoluent selon les efforts de raisonnement, les instructions système et les phases de post-entraînement.

Sonia K. Murthy, Rosie Zhao, Jennifer Hu + 4 more2026-03-03💬 cs.CL

DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

Ce papier présente DAPFAM, un nouveau jeu de données de niveau familial pour les brevets qui révèle un écart de performance significatif entre les recherches intra-domaine et inter-domaine, tout en évaluant systématiquement diverses stratégies de récupération pour améliorer la robustesse des systèmes de recherche de brevets.

Iliass Ayaou, Denis Cavallucci, Hicham Chibane2026-03-03💬 cs.CL

XISM: an eXploratory and Interactive Graph Tool to Visualize and Evaluate Semantic Map Models

Ce papier présente XISM, un outil interactif qui combine inférence basée sur les données et expertise humaine pour visualiser et évaluer de manière transparente et contrôlable les modèles de cartes sémantiques en linguistique typologique.

Zhu Liu, Zhen Hu, Lei Dai + 2 more2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

Le papier propose FrugalRAG, un cadre d'affinage en deux étapes combinant apprentissage supervisé et apprentissage par renforcement pour adapter dynamiquement la profondeur de recherche aux questions, permettant ainsi d'atteindre des performances de pointe en réponse aux questions multi-étapes avec une efficacité accrue et une réduction des coûts de récupération.

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Ce papier propose SASFT, une méthode de micro-ajustement supervisé guidée par des autoencodeurs parcimonieux qui atténue efficacement le changement de code inattendu dans les grands modèles de langage en régulant les pré-activations des caractéristiques linguistiques, tout en préservant leurs capacités multilingues.

Boyi Deng, Yu Wan, Baosong Yang + 3 more2026-03-03💬 cs.CL

← Précédent Suivant →