cs.CL articles | Gist.Science

Optimizing Language Models for Crosslingual Knowledge Consistency

Cet article présente la Direct Consistency Optimization (DCO), une méthode efficace inspirée de DPO qui améliore la cohérence des connaissances des grands modèles de langage multilingues en utilisant un apprentissage par renforcement sans modèle de récompense explicite.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

Cet article propose un modèle de sélection de mots vides basé sur une fonction de Hill décroissante, démontrant que cette approche explique la distribution non-Zipfienne des mots vides (ajustée par une fonction de rang bêta) et la déviation quadratique des mots non vides par rapport à la loi de Zipf.

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Cette étude évalue l'efficacité des techniques d'augmentation de données et d'amélioration des caractéristiques pour la détection de discours haineux, démontrant que le modèle open-source gpt-oss-20b obtient les meilleurs résultats globaux tandis que l'approche Delta TF-IDF, couplée à l'augmentation de données, atteint une précision exceptionnelle sur le jeu de données Stormfront, tout en soulignant la difficulté accrue de détecter les discours haineux implicites.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

Cette recherche démontre que les grands modèles de langage, notamment Llama 3.2, surpassent les méthodes traditionnelles et les modèles de base pour détecter et classifier les contenus illicites complexes et multilingues sur les marchés en ligne, offrant ainsi des outils plus efficaces pour la sécurité numérique.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

En s'appuyant sur un cadre d'évaluation à deux couches, cette étude démontre que les modèles d'IA peuvent simuler de manière réaliste les questions des juges lors d'audiences simulées, tout en révélant des limites importantes telles que le manque de diversité et la flatterie, qui resteraient indétectables avec des méthodes d'évaluation naïves.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Ce papier présente « Model Medicine », un cadre clinique novateur qui adapte les principes de la médecine biologique pour diagnostiquer, traiter et prévenir les dysfonctionnements des modèles d'IA grâce à une taxonomie structurée, un modèle comportemental empirique, un outil d'imagerie neuronale et des protocoles de soins standardisés.

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Cet article présente un système neuro-symbolique combinant le modèle Gemini Deep Think et une recherche arborescente qui a résolu de manière autonome un problème ouvert en physique théorique en dérivant des solutions analytiques exactes pour le spectre de puissance du rayonnement gravitationnel émis par les cordes cosmiques.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

Cet article propose les « Interactive Benchmarks », un nouveau paradigme d'évaluation unifié qui mesure la capacité de raisonnement des modèles dans des processus interactifs sous contraintes budgétaires, démontrant ainsi que les benchmarks traditionnels sont insuffisants et qu'il existe encore d'importantes marges de progression dans les scénarios interactifs.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Les auteurs proposent IF-RewardBench, un nouveau méta-benchmark complet pour l'évaluation des modèles juges en matière de suivi d'instructions, qui surpasse les approches existantes grâce à une évaluation listwise basée sur des graphes de préférences et démontre une corrélation plus forte avec les performances des tâches en aval.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Ce papier présente DARE, un modèle de récupération léger qui intègre les caractéristiques de distribution des données pour aligner les agents LLM avec l'écosystème statistique R, améliorant ainsi significativement la précision de la récupération de packages et la génération de code par rapport aux méthodes existantes.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

HiMAP-Travel est un cadre de planification hiérarchique multi-agents qui surpasse les approches séquentielles pour les voyages à long terme en décomposant la tâche en coordination stratégique et exécution parallèle, tout en garantissant le respect des contraintes budgétaires et de diversité grâce à des mécanismes de transaction, de négociation et d'un modèle unique entraîné par GRPO.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

Ce papier présente SharedLLM, une architecture innovante utilisant l'auto-injection de modèles à court contexte empilés pour compresser efficacement les longues séquences et étendre la fenêtre de contexte au-delà de 128K tokens, tout en réduisant la consommation mémoire et en accélérant l'inférence sans nécessiter un pré-entraînement coûteux sur de longs contextes.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

Le papier présente TSEmbed, un cadre d'encodage multimodal universel qui surmonte les conflits de tâches en combinant un mélange d'experts avec de l'adaptation à faible rang et une nouvelle stratégie d'échantillonnage négatif, permettant ainsi d'atteindre des performances de pointe sur des benchmarks multimodaux massifs et des données industrielles.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Ce rapport technique propose un cadre de perception respectueux de la vie privée, basé sur l'architecture collaborative edge-cloud et le paradigme AI Flow, qui transforme les images brutes en vecteurs de caractéristiques abstraits et irréversibles pour permettre une reconnaissance comportementale et une reconstruction sémantique dynamique sans jamais exposer les données visuelles originales.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Ce papier propose RLSTA, une méthode d'apprentissage par renforcement qui utilise les capacités de raisonnement en un seul tour comme ancrages pour surmonter l'inertie contextuelle et stabiliser les interactions multi-tours des modèles de langage.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

Ce papier propose le paradigme CSV (Clustering-Sampling-Voting), un cadre innovant qui réduit la complexité des invocations de modèles de langage pour le filtrage sémantique à une complexité sous-linéaire tout en garantissant des erreurs maîtrisées, permettant ainsi de diminuer considérablement les coûts et la latence par rapport aux approches existantes.

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

Ce papier introduit le concept de Champ Gravitationnel de l'Attention (AGF) pour découpler les encodages positionnels des embeddings sémantiques dans les modèles de langage, optimisant ainsi leur architecture et révélant une corrélation empirique avec la loi de la gravitation universelle de Newton.

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Cette étude compare l'efficacité et le coût d'un système de mémoire factuelle basé sur Mem0 à l'utilisation de modèles LLM à long contexte pour des agents conversationnels persistants, révélant que l'approche mémoire devient plus économique au-delà d'un certain seuil d'interactions tout en offrant des performances compétitives sur la cohérence des personnalités.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Cette étude méta-analytique révèle que les modèles de langage actuels, en particulier les architectures décodeur, sous-performent significativement les humains dans l'évaluation des réponses courtes en raison de sensibilités au wording et de biais raciaux, indépendamment de la difficulté perçue des tâches.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

Ce papier propose GDS, une méthode novatrice qui détecte les données de pré-entraînement des grands modèles de langage en analysant les écarts de gradient (magnitude, localisation et concentration neuronale) pour surmonter les limites des approches existantes et offrir une détection de haute performance avec une excellente transférabilité inter-ensembles.

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

← Précédent Suivant →