cs.CL articles | Gist.Science

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

Le papier présente PonderLM-3, un cadre d'apprentissage pré-entraîné qui permet une allocation adaptative et différentiable du calcul supplémentaire au niveau de chaque token, optimisant ainsi l'efficacité de l'inférence tout en maintenant la cohérence entre l'entraînement et l'inférence.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan LinWed, 11 Ma💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Cette étude empirique cartographie les interactions entre les modèles de langage et les stratégies d'incitation pour la génération de code Verilog, en évaluant l'impact de diverses techniques de prompt engineering sur des modèles de tailles et de spécialisations variées.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh KarriWed, 11 Ma💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Cet article présente un pipeline auto-hébergé et sans API qui convertit des supports de cours en quiz à choix multiples grâce à un modèle de langage local, en garantissant la qualité via des contrôles déterministes et en favorisant la confidentialité, la redevabilité et l'efficacité énergétique.

Seine A. ShintaniWed, 11 Ma💻 cs

Fish Audio S2 Technical Report

Ce rapport technique présente Fish Audio S2, un système de synthèse vocale open-source capable de suivre des instructions en langage naturel pour générer de la parole multi-parleurs et multi-tours, accompagné d'un moteur d'inférence optimisé pour la production.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei HanWed, 11 Ma🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Le papier présente MASEval, une bibliothèque agnostique qui évalue les systèmes d'agents LLM dans leur ensemble en démontrant que le choix du framework impacte la performance autant que celui du modèle, comblant ainsi le vide des benchmarks centrés uniquement sur les modèles.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin GubriWed, 11 Ma🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

En exploitant le digraphisme serbe comme banc d'essai contrôlé, cette étude démontre que les caractéristiques apprises par les auto-encodeurs épars (SAE) dans les modèles Gemma capturent le sens abstrait plutôt que la forme orthographique, car elles restent invariantes face au changement d'écriture (latin ou cyrillique) malgré une tokenisation totalement différente.

Sripad KarneWed, 11 Ma💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Ce papier présente MultiGraSCCo, un benchmark multilingue d'anonymisation dans dix langues contenant plus de 2 500 annotations d'identifiants personnels, généré via une méthode de traduction neuronale adaptée culturellement pour faciliter le développement et l'évaluation de systèmes de protection des données médicales.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland RollerWed, 11 Ma💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Cette étude évalue une stratégie de criblage sans étiquette pour les électrocatalyseurs à base de solutions solides complexes, démontrant que des embeddings de composition dérivés de textes scientifiques, notamment via un modèle Word2Vec léger, permettent de réduire efficacement l'espace des candidats tout en préservant les performances mesurées.

Lei Zhang, Markus StrickerWed, 11 Ma🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

Ce papier présente ConFu, un cadre de décodage spéculatif innovant qui améliore l'inférence des grands modèles de langage en permettant aux modèles de brouillon d'anticiper la direction future de la génération grâce à des tokens de contemplation et des prompts souples, surpassant ainsi les performances de la série EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou SunWed, 11 Ma💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Le papier présente SciTaRC, un benchmark expert de questions sur des données tabulaires scientifiques exigeant à la fois un raisonnement linguistique approfondi et des calculs complexes, révélant que les modèles d'IA actuels échouent massivement en raison d'un goulot d'étranglement universel lié à l'exécution fidèle des plans.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp KoehnWed, 11 Ma💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Le papier présente PathoScribe, un cadre unifié piloté par un grand modèle de langage (LLM) qui transforme les archives de pathologie statiques en une bibliothèque vivante et intelligente, permettant la recherche sémantique, la construction automatisée de cohortes et l'aide au diagnostic clinique avec une précision et une efficacité supérieures aux méthodes traditionnelles.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Le papier présente VoxEmo, un benchmark complet pour l'évaluation des modèles de langage audio dans la reconnaissance des émotions, qui propose un protocole d'étiquetage souple et des stratégies d'ensemble pour mieux capturer l'ambiguïté inhérente aux émotions humaines et la subjectivité des annotations.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas HainWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Le papier présente BiCLIP, un cadre simple et efficace qui améliore l'adaptation de domaine des modèles vision-langage en appliquant une transformation géométrique structurée aux caractéristiques multimodales, permettant d'atteindre des performances de pointe sur plusieurs benchmarks avec un nombre minimal de paramètres.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Ce papier présente Guardian, un système end-to-end coordonnant plusieurs modèles de langage spécialisés et un moteur de consensus pour extraire et traiter intelligemment les informations lors des premières heures critiques d'une enquête sur une personne disparue, tout en garantissant une approche auditable et conservatrice.

Joshua Castillo, Ravi MukkamalaWed, 11 Ma🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Cet article présente un cadre automatisé d'analyse thématique pour les données qualitatives cliniques qui combine un raffinement itératif du codebook avec un suivi complet de la provenance, démontrant des performances supérieures et une meilleure alignement avec les thèmes d'experts par rapport aux approches existantes.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying DingWed, 11 Ma💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Cet article propose un cadre de décision conscient de la confiance qui analyse une seule trajectoire de raisonnement pour sélectionner dynamiquement entre un chemin unique ou multiple, permettant de réduire les coûts d'inférence de jusqu'à 80 % tout en maintenant une précision comparable aux méthodes de cohérence auto-évaluée sur plusieurs trajectoires.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun YinWed, 11 Ma💬 cs.CL

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

L'agent autonome Sentinel, doté d'une capacité de raisonnement multi-étapes, surpasse les cliniciens individuels en sensibilité pour le triage des données de surveillance à distance des patients, offrant ainsi une solution évolutive et rentable pour transformer des volumes massifs de données en alertes cliniques fiables.

Exclusive Self Attention

Ce papier présente l'attention exclusive (XSA), une modification simple de l'attention auto-attentive qui améliore la modélisation de séquence des Transformers en restreignant l'attention aux informations orthogonales à la propre valeur du token, surpassant ainsi les performances standards sur des tâches de modélisation du langage.

Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Cette étude diagnostique le « fossé de modalité » qui réduit les performances des modèles multimodaux lors du traitement de texte en images, identifie les causes de cette dégradation comme des erreurs de lecture amplifiées par le rendu visuel, et propose une méthode d'auto-distillation efficace pour combler cet écart sans oublier les connaissances antérieures.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Cette étude présente Bioalignment, un cadre d'évaluation révélant que les grands modèles de langage privilégient les solutions synthétiques aux approches biologiques, et démontre qu'un fine-tuning ciblé sur un corpus scientifique peut corriger ce biais sans altérer leurs capacités générales.

Trent R Northen, Mingxun WangWed, 11 Ma💬 cs.CL

← Précédent Suivant →