cs.CL articles | Gist.Science

SE-Search: Self-Evolving Search Agent via Memory and Dense Reward

Cet article présente SE-Search, un agent de recherche autonome qui améliore les performances des modèles de langage en combinant une purification de la mémoire, un entraînement par requêtes atomiques et des récompenses denses pour optimiser le processus de recherche et réduire les erreurs factuelles.

Jian Li, Yizhang Jin, Dongqi Liu + 9 more2026-03-05💬 cs.CL

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Cette étude présente une architecture hybride de modèles de langage, combinant un fine-tuning supervisé sur des faits agricoles vérifiés et une couche d'adaptation culturelle, qui améliore la fiabilité, la sécurité et le rapport coût-efficacité des systèmes d'avis agricoles pour les petits exploitants, tout en introduisant un cadre d'évaluation rigoureux et une bibliothèque de prompts open source.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Cette étude révèle que, contrairement à l'exploration diversifiée des humains, les grands modèles de langage actuels divergent considérablement dans la sélection de leurs objectifs en privilégiant l'exploitation de solutions uniques ou affichant de faibles performances, ce qui remet en cause leur fiabilité en tant que substituts aux préférences humaines dans des tâches ouvertes.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

Le papier présente PlugMem, un module de mémoire plugin indépendant des tâches qui améliore les agents LLM en structurant les souvenirs épisodiques sous forme d'un graphe de connaissances compact et orienté vers la décision, surpassant ainsi les approches existantes en termes d'efficacité et de densité d'information sur divers benchmarks.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

Ce papier présente TTSR, un cadre d'entraînement auto-évolutif au moment du test qui améliore continuellement le raisonnement des grands modèles de langage en faisant alterner un même modèle pré-entraîné entre les rôles d'élève résolvant des problèmes et de professeur analysant les échecs pour générer des questions ciblées.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

Le papier présente TATRA, une méthode d'ingénierie de prompt sans entraînement qui génère dynamiquement des exemples few-shot adaptés à chaque instance, surpassant ainsi les approches d'optimisation coûteuses et dépendantes de données sur des tâches de classification et de raisonnement mathématique.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Cette étude audite la fabrication de références par dix grands modèles de langage dans quatre domaines académiques, révélant des taux d'hallucination variables et démontrant que la vérification par consensus multi-modèles ou la répétition dans l'invite, ainsi qu'un classifieur léger basé sur les caractéristiques bibliographiques, constituent des méthodes efficaces pour détecter les citations fantômes sans requérir de bases de données externes.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Cette étude évalue les performances de l'IA juridique sur le benchmark LaborBench, révélant que l'outil STARA atteint une précision de 92 % grâce à une correction des omissions des experts du DOL, tandis que les solutions commerciales de Westlaw et LexisNexis sous-performent, et propose des principes de conception pour améliorer les systèmes RAG juridiques.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Cet article explore les défis et les solutions du cache sémantique pour les embeddings de grands modèles de langage, en démontrant la complexité NP-difficile des politiques optimales hors ligne et en proposant des heuristiques efficaces qui améliorent la précision par rapport aux méthodes basées sur la fréquence.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Ce papier propose un cadre multi-agents basé sur la génération augmentée par récupération (RAG) intégrant des modèles vision-langage pour optimiser la gestion des connaissances et la formation du personnel dans les départements de transport d'État en permettant une recherche contextuelle précise de documents techniques et de figures.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

HumanLM: Simulating Users with State Alignment Beats Response Imitation

Le papier présente HumanLM, un nouveau cadre d'entraînement qui améliore la simulation d'utilisateurs en alignant des états latents psychologiquement fondés avec les réponses réelles via l'apprentissage par renforcement, surpassant ainsi les méthodes d'imitation de surface sur le benchmark Humanual.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Le papier propose la méthode DCCD, un processus d'inférence sans entraînement qui améliore la génération structurée en découplant la planification sémantique de l'application de contraintes syntaxiques, permettant ainsi d'obtenir une précision nettement supérieure et une efficacité accrue par rapport aux méthodes de décodage contraint standard.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

Cette étude comparative révèle que bien que le format TOON offre un potentiel d'économie de tokens prometteur pour les structures complexes, son avantage est souvent annulé par la surcharge du prompt et que la génération JSON standard, même sans contraintes, surpasse actuellement TOON en précision et en efficacité pour les structures simples.

Ivan Matveev2026-03-05🤖 cs.AI

TopicENA: Enabling Epistemic Network Analysis at Scale through Automated Topic-Based Coding

Cette étude présente TopicENA, un cadre qui combine le BERTopic et l'analyse de réseaux épistémiques (ENA) pour automatiser le codage des concepts et permettre ainsi une analyse structurelle à grande échelle de grands corpus textuels, tout en fournissant des recommandations pratiques sur la granularité des sujets et les seuils d'inclusion.

Owen H. T. Lu, Tiffany T. Y. Hsu2026-03-05🤖 cs.AI

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Cette étude introduit le cadre History-Echoes pour démontrer que l'histoire conversationnelle piège géométriquement les grands modèles de langage dans un espace latent, créant une persistance comportementale qui se manifeste par une forte corrélation entre la cohérence des états probabilistes et celle des représentations cachées.

Adi Simhi, Fazl Barez, Martin Tutek + 2 more2026-03-05🤖 cs.AI

Combating data scarcity in recommendation services: Integrating cognitive types of VARK and neural network technologies (LLM)

Cette recherche propose un cadre hybride innovant combinant l'analyse sémantique des grands modèles de langage (LLM) et le profilage cognitif VARK pour surmonter les défis du démarrage à froid dans les systèmes de recommandation en générant des profils utilisateurs et des métadonnées enrichies dès le premier contact.

Nikita Zmanovskii2026-03-05💬 cs.CL

Entropic-Time Inference: Self-Organizing Large Language Model Decoding Beyond Attention

Cet article propose un nouveau paradigme d'inférence appelé « inférence entropique-temps », qui remplace la progression linéaire par tokens par un processus thermodynamique auto-organisé où le décodage est piloté par le flux d'incertitude pour optimiser l'allocation des ressources computationnelles.

Andrew Kiruluta2026-03-05🤖 cs.LG

The Logovista English-Japanese Machine Translation System

Ce document décrit l'architecture, les pratiques de développement et les artefacts préservés du système de traduction automatique anglais-japonais Logovista, un système à base de règles commerciales qui a été continuellement maintenu et adapté aux exigences pratiques pendant plusieurs décennies, de 1990 jusqu'à au moins 2012.

Barton D. Wright2026-03-05💬 cs.CL

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

Le papier présente SemKey, un cadre novateur qui découple les objectifs sémantiques et réoriente l'attention des modèles vers les signaux EEG pour surmonter les biais sémantiques et le piège de la métrique BLEU dans le décodage cerveau-langage.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

How does fine-tuning improve sensorimotor representations in large language models?

Cette étude démontre que le fine-tuning peut réduire l'écart d'incarnation des grands modèles de langage en orientant leurs représentations internes vers des schémas sensorimoteurs plus ancrés, bien que ces améliorations soient sensibles à l'objectif d'apprentissage et ne se généralisent pas à des formats de tâches disparates.

Minghua Wu, Javier Conde, Pedro Reviriego + 1 more2026-03-05🤖 cs.AI

← Précédent Suivant →