cs.CL articles | Gist.Science

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Cet article présente un cadre vision-langage léger et explicable en deux étapes, basé sur un encodeur Swin Transformer et des décodeurs de type T5, qui atteint des performances quasi parfaites dans la classification des maladies des cultures et la réponse aux questions visuelles (VQA) tout en offrant une interprétabilité des prédictions.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam AnsaryTue, 10 Ma💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

Le document présente NC-Bench, une nouvelle norme d'évaluation axée sur la structure et la forme des conversations naturelles plutôt que sur leur contenu, permettant de mesurer la compétence conversationnelle des grands modèles de langage à travers des tâches de gestion de séquences, d'inférence augmentée par la récupération (RAG) et de requêtes complexes.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj GalaTue, 10 Ma💬 cs.CL

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

Ce premier sondage systématique examine les interactions bidirectionnelles entre les grands modèles de langage et les bandits multi-bras, en démontrant comment ces derniers résolvent des défis clés des LLM tandis que les LLM redéfinissent les composants fondamentaux des algorithmes de bandits pour améliorer la prise de décision séquentielle.

Siguang Chen, Chunli Lv, Miao XieTue, 10 Ma🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Ce papier propose MAS-Orchestra, un cadre d'apprentissage par renforcement qui orchestre les systèmes multi-agents de manière holistique via des appels de fonctions, et introduit MASBENCH pour démontrer que les gains de performance dépendent de la structure des tâches, permettant ainsi d'obtenir des améliorations significatives et une efficacité supérieure sur divers benchmarks.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq JotyTue, 10 Ma💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Ce papier présente le DFAH, un cadre d'évaluation qui démontre que la déterminisme et la précision des agents LLM financiers sont des métriques indépendantes, nécessitant une mesure conjointe pour garantir la reproductibilité des décisions lors des audits réglementaires.

Raffi KhatchadourianTue, 10 Ma💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

Cet article présente EFT-CoT, un cadre multi-agents fondé sur la thérapie centrée sur les émotions qui améliore les réponses aux questions de santé mentale en intégrant un processus de trois étapes (perception incarnée, exploration cognitive et intervention narrative) et en entraînant un modèle spécialisé sur un jeu de données dérivé de 67 000 textes réels.

Lanqing Du, Yunong Li, YuJie Long, Shihong ChenTue, 10 Ma💬 cs.CL

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Ce travail améliore le modèle X-Codec-2.0 en réduisant son taux latent à 25 Hz et en augmentant sa fréquence d'échantillonnage à 24 kHz, ce qui permet d'obtenir une meilleure efficacité temporelle et une qualité audio supérieure sans modifier l'architecture de base.

Husein ZolkepliTue, 10 Ma💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

Le papier présente RedSage, un modèle de langage open-source spécialisé en cybersécurité entraîné sur un vaste corpus de données et des flux de travail simulés par des agents, qui surpasse les modèles de base sur des benchmarks spécifiques tout en améliorant ses capacités de raisonnement général.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto DamianiTue, 10 Ma💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Le papier présente Mem-T, un agent de mémoire autonome entraîné via le cadre RL MoT-GRPO pour densifier les récompenses et optimiser conjointement la construction et la récupération de mémoires sur des horizons longs, surpassant ainsi les méthodes existantes en performance et en efficacité.

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan ZhangTue, 10 Ma🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Cette étude démontre que, pour la détection de valeurs humaines au niveau des phrases, la structure hiérarchique des valeurs de Schwartz est plus efficace en tant que biais inductif que comme règle de routage rigide, les meilleurs résultats étant obtenus grâce à l'ajustement des seuils et à l'ensemblage plutôt qu'aux architectures hiérarchiques strictes ou aux modèles de langage compacts.

Víctor Yeste, Paolo RossoTue, 10 Ma🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

Le papier présente LatentMem, un cadre de mémoire multi-agent apprenable qui surmonte l'homogénéisation et la surcharge d'informations grâce à une composition de mémoires latentes spécifiques aux agents et à une optimisation par politique (LMPO), permettant d'obtenir des performances supérieures sans modifier les systèmes existants.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang YangTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Cette étude démontre que les métriques spectrales extraites des réseaux de exigences textuels prédisent avec une grande précision l'effort d'intégration, surpassant ainsi les métriques structurelles simples et comblant un vide méthodologique entre l'analyse de complexité architecturale et l'ingénierie des exigences.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Ce papier propose CoCoA, un algorithme de décodage sans réentraînement qui atténue les hallucinations des grands modèles de langage en pénalisant les sorties présentant une instabilité représentationnelle entre les couches internes, améliorant ainsi leur fiabilité factuelle.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour SoofiTue, 10 Ma💬 cs.CL

Neuro-Symbolic Synergy for Interactive World Modeling

Ce papier présente NeSyS, un cadre de synergie neuro-symbolique qui intègre les priors sémantiques probabilistes des grands modèles de langage avec des règles symboliques exécutables pour créer des modèles de monde interactifs à la fois expressifs et robustes, réduisant ainsi les hallucinations et les besoins en données de 50 % tout en surpassant les méthodes existantes.

Hongyu Zhao, Siyu Zhou, Haolin Yang, Zengyi Qin, Tianyi ZhouTue, 10 Ma💬 cs.CL

Learning Page Order in Shuffled WOO Releases

Cette étude évalue cinq méthodes d'apprentissage pour réordonner des pages de documents administratifs néerlandais mélangés, révélant que les modèles spécialisés surpassent les approches séquentielles et l'apprentissage par curriculum, notamment pour les documents longs où les transformers séquentiels échouent à généraliser.

Efe Kahraman, Giulio TosatoTue, 10 Ma🤖 cs.LG

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

Cet article présente un cadre d'apprentissage automatique sans réponse qui exploite la structure sémantique des items de questionnaires psychologiques via l'analyse de sujets et le regroupement de plongements contextuels pour réduire efficacement la longueur des échelles tout en préservant leur validité psychométrique.

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang NiTue, 10 Ma🤖 cs.LG

A Geometric Taxonomy of Hallucinations in LLMs

Cette article propose une taxonomie géométrique des hallucinations des grands modèles de langage en trois types et introduit des indices de détection (SGI et DGI) basés sur l'analyse des déplacements dans l'espace d'incorporation, tout en révélant des limites méthodologiques dans la détection des erreurs factuelles dues à des confusions stylistiques.

Javier MarínTue, 10 Ma💬 cs.CL

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Ce papier propose une hiérarchie à cinq niveaux de la capacité d'apprentissage fondée sur la structure de l'information pour expliquer pourquoi la génération de code progresse plus fiablement que l'apprentissage par renforcement, en démontrant que les limites du progrès en ML dépendent davantage de la nature apprenable d'une tâche que de la simple augmentation de la taille des modèles.

Zhimin ZhaoTue, 10 Ma🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

Ce papier présente XTF, un cadre de filtrage de bruit au niveau des tokens basé sur l'explicabilité qui améliore significativement les performances du fine-tuning des grands modèles de langage en décomposant et en masquant les contributions nuisibles des tokens selon trois attributs clés : l'importance du raisonnement, la nouveauté des connaissances et la pertinence de la tâche.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui RenTue, 10 Ma💬 cs.CL

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Le papier présente CogitoRAG, un cadre RAG inspiré de la mémoire épisodique humaine qui améliore la récupération et le raisonnement complexes en extrayant et en diffusant des idées directrices (gists) au sein d'un graphe de connaissances multidimensionnel.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun YuTue, 10 Ma💬 cs.CL

← Précédent Suivant →