Noise reduction in BERT NER models for clinical entity extraction

Pour améliorer la précision des modèles BERT d'extraction d'entités nommées dans le contexte clinique, les auteurs proposent un modèle de réduction du bruit qui, en exploitant la carte de densité de probabilité pour capturer l'effet d'attraction sémantique, classe les prédictions en catégories fortes ou faibles et réduit ainsi les faux positifs de 50 % à 90 %.

Kuldeep Jiwani, Yash K Jeengar, Ayush Dhaka2026-03-03💬 cs.CL

Iterative LLM-based improvement for French Clinical Interview Transcription and Speaker Diarization

Cette étude propose une architecture de post-traitement itérative basée sur un LLM (Qwen3-Next-80B) qui alterne la reconnaissance des locuteurs et des mots pour améliorer significativement la précision de la transcription et du diarisation des conversations cliniques françaises, réduisant les erreurs de diarisation tout en restant viable pour un déploiement hors ligne.

Ambre Marie, Thomas Bertin, Guillaume Dardenne + 1 more2026-03-03⚡ eess

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

Cette étude présente un benchmark expérimental démontrant que, bien que les stratégies de filtrage des données réduisent les contenus nuisibles dans les ensembles d'entraînement des grands modèles de langage, elles ont pour effet secondaire d'augmenter la sous-représentation des groupes vulnérables face aux discriminations.

Marco Antonio Stranisci, Christian Hardmeier2025-02-17💬 cs.CL

Anticipating Safety Issues in E2E Conversational AI: Framework and Tooling

Cet article propose un cadre conceptuel et une suite d'outils pour anticiper les problèmes de sécurité des agents conversationnels neuronaux de bout en bout, en aidant les chercheurs à prendre des décisions éclairées sur leur entraînement et leur diffusion tout en équilibrant les impacts positifs et les risques de comportements nuisibles.

Emily Dinan, Gavin Abercrombie, A. Stevie Bergman + 4 more2021-07-07💬 cs.CL