cs.CL articles | Gist.Science

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

Le papier présente EC-Net, un cadre de modèle d'hypergraphe hyperbolique qui utilise des embeddings dans un disque de Poincaré et un apprentissage contrastif pour améliorer la robustesse et la précision de la compréhension des émotions multimodales, en particulier dans des conditions de bruit ou de données partielles.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon FongTue, 10 Ma🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Ce papier présente ModalImmune, un cadre d'entraînement qui renforce la robustesse des systèmes multimodaux face à la perte ou la corruption de canaux d'entrée en apprenant intentionnellement à s'adapter à la destruction sélective d'informations modales grâce à des mécanismes de régularisation et d'adaptation automatique.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon FongTue, 10 Ma🤖 cs.LG

Condition-Gated Reasoning for Context-Dependent Biomedical Question Answering

Ce papier présente CondMedQA, le premier benchmark pour le raisonnement conditionnel en réponse aux questions biomédicales, ainsi que le cadre CGR qui améliore la précision des réponses médicales en adaptant dynamiquement les chemins de raisonnement aux conditions spécifiques du patient.

Jash Rajesh Parekh, Wonbin Kweon, Joey Chan, Rezarta Islamaj, Robert Leaman, Pengcheng Jiang, Chih-Hsuan Wei, Zhizheng Wang, Zhiyong Lu, Jiawei HanTue, 10 Ma💬 cs.CL

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Le papier présente MrBERT, une famille d'encodeurs multilingues modernes optimisés pour des tâches spécifiques en catalan et en espagnol ainsi que pour des domaines spécialisés comme le juridique et le biomédical, tout en intégrant l'apprentissage de représentations matryoshka pour réduire les coûts d'inférence et de stockage.

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta VillegasTue, 10 Ma🤖 cs.LG

CeRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

Le papier présente CeRA, une méthode d'adaptation à faible rang qui surpasse les limites linéaires de LoRA en utilisant des portées SiLU et un dropout structurel pour étendre le manifold et activer la queue du spectre des valeurs singulières, permettant ainsi d'atteindre de meilleures performances de raisonnement avec des rangs bien inférieurs.

Hung-Hsuan ChenTue, 10 Ma🤖 cs.LG

KVSlimmer: Theoretical Insights and Practical Optimizations for Asymmetric KV Merging

KVSlimmer est une méthode d'optimisation du cache KV qui, en établissant un cadre théorique sur l'asymétrie spectrale des poids et en proposant une solution analytique sans gradient, améliore significativement les performances des LLMs tout en réduisant leur coût mémoire et leur latence.

Lianjun Liu, Hongli An, Weiqi Yan, Xin Du, Shengchuan Zhang, Huazhong Liu, Yunshan ZhongTue, 10 Ma💬 cs.CL

Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains

Cette étude propose un cadre de prédiction conforme qui garantit une couverture fiable pour l'extraction d'entités médicales par des modèles de langage, en démontrant que les seuils d'ajustement nécessaires varient considérablement selon la structure du document et le domaine clinique, ce qui justifie une calibration spécifique à chaque contexte pour un déploiement sûr.

Manil Shrestha, Edward KimTue, 10 Ma💬 cs.CL

CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation

Ce papier présente CyclicJudge, une méthode d'affectation en roulement des juges LLM qui élimine efficacement les biais systématiques dans l'évaluation sans augmenter les coûts, en s'appuyant sur une décomposition de la variance pour optimiser l'attribution des juges aux scénarios.

Ziyi Zhu, Olivier Tieleman, Alexey Bukhtiyarov, Jinghong ChenTue, 10 Ma💬 cs.CL

PrivMedChat: End-to-End Differentially Private RLHF for Medical Dialogue Systems

Le papier présente PrivMedChat, un cadre de bout en bout permettant l'alignement par apprentissage par renforcement à partir de retours humains (RLHF) avec garantie de confidentialité différentielle pour les systèmes de dialogue médicaux, en combinant des techniques de protection de la vie privée à chaque étape d'entraînement et une stratégie de construction de préférences sans annotation manuelle coûteuse.

Sudip BhujelTue, 10 Ma💬 cs.CL

No Memorization, No Detection: Output Distribution-Based Contamination Detection in Small Language Models

Cette étude démontre que la méthode de détection de contamination par distribution de sortie (CDD) échoue systématiquement sur les petits modèles de langage, car son efficacité dépend de la mémorisation littérale des données, et que les approches basées sur la probabilité comme la perplexité ou Min-k% Prob s'avèrent nettement supérieures dans tous les cas testés.

Omer Sela (Tel Aviv University)Tue, 10 Ma💬 cs.CL

vLLM Hook v0: A Plug-in for Programming Model Internals on vLLM

Le papier présente vLLM Hook, un plug-in open-source permettant de programmer les états internes des modèles vLLM via des modes passif et actif pour faciliter des applications telles que la détection d'injections de prompts, l'amélioration du RAG et le pilotage d'activations.

Ching-Yun Ko, Pin-Yu ChenTue, 10 Ma🤖 cs.LG

ARC-AGI-2 Technical Report

Ce rapport présente un système basé sur les transformateurs qui améliore significativement les performances sur le corpus ARC en combinant un encodage de tâche compact, des augmentations symétriques, un apprentissage en temps de test et un décodage conscient de la symétrie pour atteindre une généralisation de niveau humain.

Wallyson Lemes de Oliveira, Mekhron Bobokhonov, Matteo Caorsi, Aldo Podestà, Gabriele Beltramo, Luca Crosato, Matteo Bonotto, Federica Cecchetto, Hadrien Espic, Dan Titus Salajan, Stefan Taga, Luca Pana, Joe CarthyTue, 10 Ma💬 cs.CL

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Cette étude révèle que les « attention sinks » sur le premier token émergent précocement lors de l'entraînement grâce à un mécanisme spécifique appelé « P0 Sink Circuit », qui permet d'identifier la position zéro sans information sémantique et pourrait servir d'indicateur de convergence du pré-entraînement.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng QiuTue, 10 Ma🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

En utilisant des grammaires contextuelles probabilistes pour générer des corpus synthétiques, cette étude démontre que les structures hiérarchiques inhérentes au processus de génération des données constituent le facteur unificateur expliquant l'émergence de phénomènes mécanistes apparemment distincts dans les modèles de langage.

Jonas Rohweder, Subhabrata Dutta, Iryna GurevychTue, 10 Ma🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

Le papier présente HEF (Hierarchical Embedding Fusion), une approche en deux étapes qui compresse les dépôts de code en une hiérarchie de vecteurs denses pour remplacer les longs contextes de récupération par des pseudo-jetons, permettant ainsi une génération de code assistée par récupération à faible latence avec une précision comparable aux méthodes existantes.

Nikita Sorokin, Ivan Sedykh, Valentin MalykhTue, 10 Ma🤖 cs.LG

A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness

Cette étude démontre que les juges LLM actuels échouent à mesurer de manière fiable la robustesse des modèles face aux attaques adverses en raison de décalages de distribution, conduisant souvent à des performances proches du hasard et à des taux de réussite artificiellement gonflés, ce qui motive la proposition de nouveaux benchmarks pour une évaluation plus rigoureuse.

Leo Schwinn, Moritz Ladenburger, Tim Beyer, Mehrnaz Mofakhami, Gauthier Gidel, Stephan GünnemannTue, 10 Ma💬 cs.CL

Rethinking Personalization in Large Language Models at the Token Level

Ce papier propose PerContrast et la fonction de perte PerCE, une méthode d'apprentissage adaptatif au niveau des tokens qui identifie et renforce les tokens les plus pertinents pour la personnalisation via une intervention causale, améliorant ainsi significativement les performances des grands modèles de langage avec un coût minimal.

Chenheng Zhang, Yijun Lu, Lizhe Fang, Chunyuan Zheng, Jiajun Chai, Xiaohan Wang, Guojun Yin, Wei Lin, Yisen Wang, Zhouchen LinTue, 10 Ma💬 cs.CL

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Cette étude propose un score de confiance normalisé pour détecter les erreurs des grands modèles de langage, révèle que l'apprentissage par renforcement induit une surconfiance contrairement au fine-tuning supervisé, et démontre l'efficacité d'une post-optimisation par distillation pour restaurer la fiabilité de ces modèles dans des tâches critiques.

Xie Xiaohu, Liu Xiaohu, Yao BenjaminTue, 10 Ma🤖 cs.LG

GraphSkill: Documentation-Guided Hierarchical Retrieval-Augmented Coding for Complex Graph Reasoning

Le papier présente GraphSkill, un cadre de codage guidé par la documentation qui améliore le raisonnement sur les graphes complexes grâce à une récupération hiérarchique et un agent d'auto-débogage, tout en introduisant un nouveau jeu de données pour l'évaluation.

Fali Wang, Chenglin Weng, Xianren Zhang, Siyuan Hong, Hui Liu, Suhang WangTue, 10 Ma🤖 cs.LG

SR-TTT: Surprisal-Aware Residual Test-Time Training

Le papier présente SR-TTT, une méthode qui améliore la rétention d'informations des modèles de langage à entraînement au moment du test en acheminant dynamiquement uniquement les tokens surprenants et incompressibles vers un cache d'attention résiduel, préservant ainsi une complexité mémoire constante tout en évitant les oublis catastrophiques lors de tâches de rappel précis.

Swamynathan V PTue, 10 Ma🤖 cs.LG

← Précédent Suivant →