cs.CL articles | Gist.Science

Noise reduction in BERT NER models for clinical entity extraction

Pour améliorer la précision des modèles BERT d'extraction d'entités nommées dans le contexte clinique, les auteurs proposent un modèle de réduction du bruit qui, en exploitant la carte de densité de probabilité pour capturer l'effet d'attraction sémantique, classe les prédictions en catégories fortes ou faibles et réduit ainsi les faux positifs de 50 % à 90 %.

Kuldeep Jiwani, Yash K Jeengar, Ayush Dhaka2026-03-03💬 cs.CL

Personalization Increases Affective Alignment but Has Role-Dependent Effects on Epistemic Independence in LLMs

Cette étude démontre que la personnalisation des grands modèles de langage améliore l'alignement affectif mais module l'indépendance épistémique de manière dépendante du rôle, en renforçant la résistance aux croyances de l'utilisateur dans un contexte de conseil tout en l'affaiblissant dans un contexte de pair social.

Sean W. Kelley, Christoph Riedl2026-03-03💬 cs.CL

Iterative LLM-based improvement for French Clinical Interview Transcription and Speaker Diarization

Cette étude propose une architecture de post-traitement itérative basée sur un LLM (Qwen3-Next-80B) qui alterne la reconnaissance des locuteurs et des mots pour améliorer significativement la précision de la transcription et du diarisation des conversations cliniques françaises, réduisant les erreurs de diarisation tout en restant viable pour un déploiement hors ligne.

Ambre Marie, Thomas Bertin, Guillaume Dardenne + 1 more2026-03-03⚡ eess

LIDS: LLM Summary Inference Under the Layered Lens

Cet article présente LIDS, une nouvelle méthode d'inférence de résumés par les grands modèles de langage qui combine une métrique de direction basée sur la SVD de BERT et l'algorithme SOFARI pour évaluer avec précision et interprétabilité la qualité des résumés tout en contrôlant le taux de fausses découvertes.

Dylan Park, Yingying Fan, Jinchi Lv2026-03-03📊 stat

FeynTune: Large Language Models for High-Energy Theory

Ce papier présente FeynTune, une série de modèles de langage spécialisés en physique théorique des hautes énergies, obtenus par affinage de Llama-3.1 sur des résumés d'arXiv, qui surpassent le modèle de base et les grands modèles commerciaux sur des tâches de complétion de résumés dans ce domaine.

Paul Richmond, Prarit Agarwal, Borun Chowdhury + 2 more2026-03-02⚛️ hep-th

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

Cette étude présente un benchmark expérimental démontrant que, bien que les stratégies de filtrage des données réduisent les contenus nuisibles dans les ensembles d'entraînement des grands modèles de langage, elles ont pour effet secondaire d'augmenter la sous-représentation des groupes vulnérables face aux discriminations.

Marco Antonio Stranisci, Christian Hardmeier2025-02-17💬 cs.CL

When ChatGPT is gone: Creativity reverts and homogeneity persists

Bien que ChatGPT améliore temporairement la performance créative humaine, cette étude révèle que l'arrêt de son utilisation entraîne un retour à la baseline et que son emploi induit une homogénéisation durable des contenus, remettant ainsi en cause sa capacité à soutenir la créativité à long terme.

Qinghan Liu, Yiyong Zhou, Jihao Huang + 1 more2024-01-11💬 cs.CL

Anticipating Safety Issues in E2E Conversational AI: Framework and Tooling

Cet article propose un cadre conceptuel et une suite d'outils pour anticiper les problèmes de sécurité des agents conversationnels neuronaux de bout en bout, en aidant les chercheurs à prendre des décisions éclairées sur leur entraînement et leur diffusion tout en équilibrant les impacts positifs et les risques de comportements nuisibles.

Emily Dinan, Gavin Abercrombie, A. Stevie Bergman + 4 more2021-07-07💬 cs.CL

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

Ce papier présente BERT, un modèle de représentation linguistique bidirectionnelle pré-entraîné sur du texte non étiqueté qui, grâce à un simple réglage fin, atteint des performances de pointe sur une large gamme de tâches de traitement du langage naturel.

Jacob Devlin, Ming-Wei Chang, Kenton Lee + 1 more2018-10-11💬 cs.CL

Attention Is All You Need

Les auteurs proposent le Transformer, une nouvelle architecture de réseau basée uniquement sur des mécanismes d'attention qui remplace les modèles récurrents et convolutifs, offrant ainsi de meilleures performances en traduction automatique avec un temps d'entraînement considérablement réduit.

Ashish Vaswani, Noam Shazeer, Niki Parmar + 5 more2017-06-12💬 cs.CL

Efficient Estimation of Word Representations in Vector Space

Les auteurs proposent deux nouvelles architectures de modèles permettant d'apprendre efficacement des représentations vectorielles de mots à partir de très grands corpus, offrant une précision supérieure et un coût computationnel réduit par rapport aux méthodes antérieures.

Tomas Mikolov, Kai Chen, Greg Corrado + 1 more2013-01-16💬 cs.CL

← Précédent