cs.CL articles | Gist.Science

UniSkill: A Dataset for Matching University Curricula to Professional Competencies

Cet article présente UniSkill, un nouveau jeu de données annoté et synthétique reliant les cours universitaires aux compétences professionnelles de la taxonomie ESCO, démontrant la faisabilité de l'appariement entre programmes éducatifs et compétences via des modèles de langage atteignant un score F1 de 87 %.

Nurlan Musazade, Joszef Mezei, Mike Zhang2026-03-04💬 cs.CL

APRES: An Agentic Paper Revision and Evaluation System

Le système APRES, alimenté par des modèles de langage, réviser automatiquement les articles scientifiques pour améliorer leur qualité et leur impact citationnel sans altérer leur contenu fondamental, tout en complétant le rôle des experts humains.

Bingchen Zhao, Jenny Zhang, Chenxi Whitehouse + 8 more2026-03-04💬 cs.CL

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Cet article présente une méthode de génération augmentée par récupération (RAG) consciente des types et assurant la clôture des dépendances, qui transforme des exigences en langage naturel en modèles d'optimisation industrielle exécutables en construisant une base de connaissances typée et en calculant le contexte minimal nécessaire pour éviter les erreurs de compilation.

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Cette présentation propose MoD-DPO, un cadre d'optimisation des préférences découplé par modalité qui atténue les hallucinations intermodales dans les modèles de langage omni-modaux en renforçant l'ancrage des modalités et en réduisant la dépendance aux priors textuels.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Ce papier présente BeyondSWE, un nouveau benchmark évaluant les agents de code au-delà des correctifs de dépôts uniques, et SearchSWE, un cadre d'augmentation par recherche, révélant que les modèles actuels peinent à maîtriser des tâches complexes multi-dépôts et que l'intégration de la recherche n'améliore pas systématiquement leurs performances.

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Ce rapport présente ACE-Brain-0, un cerveau fondationnel généraliste qui unifie le raisonnement spatial, la conduite autonome et la manipulation robotique au sein d'un seul modèle multimodal en exploitant l'intelligence spatiale comme échafaudage universel et en appliquant une nouvelle paradigme « Échafaudage-Spécialisation-Réconciliation » pour surmonter les défis de l'apprentissage multi-embodiments.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Le papier présente MOSAIC, un cadre de post-entraînement qui aligne les modèles d'agents sur une utilisation sécurisée des outils multi-étapes en intégrant un raisonnement explicite sur la sécurité et un refus comme actions primaires, réduisant ainsi les comportements nuisibles et les fuites de confidentialité tout en préservant les performances sur les tâches bénignes.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

Understanding and Mitigating Dataset Corruption in LLM Steering

Cette étude examine la robustesse du pilotage contrastif des grands modèles de langage face à la corruption des données, révélant que bien que la méthode résiste à un bruit modéré, des altérations malveillantes peuvent avoir des effets indésirables, lesquels peuvent être atténués en remplaçant le calcul de moyenne standard par un estimateur de moyenne robuste.

Cullen Anderson, Narmeen Oozeer, Foad Namjoo + 3 more2026-03-04💬 cs.CL

Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals

Ce papier présente la DGRO, une méthode d'alignement des modèles de langage sur les normes communautaires en exploitant les signaux d'acceptation implicites et la structure géométrique des réponses, éliminant ainsi le besoin de supervision explicite par préférences.

Patrick Gerard, Svitlana Volkova2026-03-04💬 cs.CL

Using Learning Progressions to Guide AI Feedback for Science Learning

Cette étude démontre que la génération automatique de rubriques à partir de progressions d'apprentissage permet de produire un retour d'information par intelligence artificielle de qualité équivalente à celle obtenue avec des rubriques conçues par des experts pour le soutien à l'apprentissage des sciences.

Xin Xia, Nejla Yuruk, Yun Wang + 1 more2026-03-04💬 cs.CL

Factuality Challenges in the Era of Large Language Models

Cet article examine les défis de véracité posés par les hallucinations et les usages malveillants des grands modèles de langage, en proposant des solutions technologiques, réglementaires et éducatives pour garantir la fiabilité de l'information à l'ère de l'IA générative.

Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha + 15 more2026-03-03💬 cs.CL

Using ChatGPT for Data Science Analyses

Ce papier évalue le potentiel de ChatGPT, en particulier via son plugin d'analyse de données, comme copilote quantitatif capable d'assister les praticiens en science des données dans l'exploration, la visualisation et la modélisation, tout en soulignant la nécessité de considérer ses limites pour une utilisation empirique rigoureuse.

Ozan Evkaya, Miguel de Carvalho2026-03-03📊 stat

Large Language Model Agent in Financial Trading: A Survey

Ce document de synthèse examine l'état actuel de la recherche sur l'utilisation d'agents pilotés par des modèles de langage de grande taille (LLM) dans le trading financier, en résumant leurs architectures, leurs données d'entrée, leurs performances en backtesting et les défis associés, tout en proposant des orientations pour les travaux futurs.

Han Ding, Yinheng Li, Junhao Wang + 3 more2026-03-03💬 cs.CL

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

Ce papier présente SynthKG, une méthode de génération de données synthétiques et de distillation qui permet à un modèle de langage plus petit de surpasser des modèles beaucoup plus grands dans la construction de graphes de connaissances à l'échelle document, tout en améliorant les performances des systèmes de récupération et de réponse aux questions.

Prafulla Kumar Choubey, Xin Su, Man Luo + 9 more2026-03-03💬 cs.CL

Polynomial, trigonometric, and tropical activations

Cet article présente des fonctions d'activation basées sur des bases orthogonales (polynomiales, trigonométriques et tropicales) qui, grâce à une initialisation préservant la variance, permettent d'entraîner efficacement des modèles profonds comme GPT-2 et ConvNeXt tout en évitant les problèmes d'explosion ou de disparition des gradients et en facilitant le fine-tuning via l'interpolation d'Hermite.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

AStar: Boosting Multimodal Reasoning with Automated Structured Thinking

Le papier présente AStar, une méthode d'inférence sans entraînement qui améliore le raisonnement multimodal en intégrant dynamiquement des « cartes de pensée » préétablies, surpassant ainsi GPT-4o sur des benchmarks complexes comme MathVerse et MathVision sans coût de calcul supplémentaire.

Jinyang Wu, Mingkuan Feng, Guocheng Zhai + 7 more2026-03-03💬 cs.CL

Enhancing Hallucination Detection through Noise Injection

Cet article propose une méthode d'inférence sans entraînement, basée sur l'injection de bruit dans les paramètres ou les activations du modèle pour mieux capturer l'incertitude bayésienne, afin d'améliorer significativement la détection des hallucinations des grands modèles de langage par rapport aux techniques d'échantillonnage standard.

Litian Liu, Reza Pourreza, Sunny Panchal + 4 more2026-03-03💬 cs.CL

LLM-ProS: Analyzing Large Language Models' Performance in Competitive Problem Solving

Ce papier présente LLM-ProS, une nouvelle méthode d'évaluation qui mesure les performances de cinq modèles de langage de pointe sur 166 problèmes de programmation compétitive du ICPC, révélant des écarts significatifs dans leurs capacités de raisonnement et d'adaptation tout en analysant l'impact de l'entraînement et du raisonnement par chaîne de pensée.

Md Sifat Hossain, Anika Tabassum, Md. Fahim Arefin + 1 more2026-03-03💬 cs.CL

Robust Adaptation of Large Multimodal Models for Retrieval Augmented Hateful Meme Detection

Cet article présente un cadre d'adaptation robuste pour les grands modèles multimodaux qui améliore la détection des mèmes haineux en augmentant la précision intra-domaine, la généralisation inter-domaines et la résilience aux attaques adverses, tout en surpassant les systèmes existants et en fournissant des justifications plus interprétables.

Jingbiao Mei, Jinghong Chen, Guangyu Yang + 2 more2026-03-03💬 cs.CL

MemeIntel: Explainable Detection of Propagandistic and Hateful Memes

Ce papier présente MemeIntel, une approche qui améliore la détection des memes propagandistes et haineux en introduisant le jeu de données MemeXplain et une optimisation multi-étape pour les modèles vision-langage, permettant ainsi de générer simultanément des prédictions précises et des explications rationnelles.

Mohamed Bayan Kmainasi, Abul Hasnat, Md Arid Hasan + 2 more2026-03-03💬 cs.CL

← Précédent Suivant →