Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Cette étude présente une architecture hybride de modèles de langage, combinant un fine-tuning supervisé sur des faits agricoles vérifiés et une couche d'adaptation culturelle, qui améliore la fiabilité, la sécurité et le rapport coût-efficacité des systèmes d'avis agricoles pour les petits exploitants, tout en introduisant un cadre d'évaluation rigoureux et une bibliothèque de prompts open source.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

Cette étude révèle que, contrairement à l'exploration diversifiée des humains, les grands modèles de langage actuels divergent considérablement dans la sélection de leurs objectifs en privilégiant l'exploitation de solutions uniques ou affichant de faibles performances, ce qui remet en cause leur fiabilité en tant que substituts aux préférences humaines dans des tâches ouvertes.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

How LLMs Cite and Why It Matters: A Cross-Model Audit of Reference Fabrication in AI-Assisted Academic Writing and Methods to Detect Phantom Citations

Cette étude audite la fabrication de références par dix grands modèles de langage dans quatre domaines académiques, révélant des taux d'hallucination variables et démontrant que la vérification par consensus multi-modèles ou la répétition dans l'invite, ainsi qu'un classifieur léger basé sur les caractéristiques bibliographiques, constituent des méthodes efficaces pour détecter les citations fantômes sans requérir de bases de données externes.

MZ Naser2026-03-05💬 cs.CL

Benchmarking Legal RAG: The Promise and Limits of AI Statutory Surveys

Cette étude évalue les performances de l'IA juridique sur le benchmark LaborBench, révélant que l'outil STARA atteint une précision de 92 % grâce à une correction des omissions des experts du DOL, tandis que les solutions commerciales de Westlaw et LexisNexis sous-performent, et propose des principes de conception pour améliorer les systèmes RAG juridiques.

Mohamed Afane, Emaan Hariri, Derek Ouyang + 1 more2026-03-05💬 cs.CL

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Ce papier propose un cadre multi-agents basé sur la génération augmentée par récupération (RAG) intégrant des modèles vision-langage pour optimiser la gestion des connaissances et la formation du personnel dans les départements de transport d'État en permettant une recherche contextuelle précise de documents techniques et de figures.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

Le papier propose la méthode DCCD, un processus d'inférence sans entraînement qui améliore la génération structurée en découplant la planification sémantique de l'application de contraintes syntaxiques, permettant ainsi d'obtenir une précision nettement supérieure et une efficacité accrue par rapport aux méthodes de décodage contraint standard.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI