cs.CL articles | Gist.Science

Image Captioning via Compact Bidirectional Architecture

Cette présentation propose un modèle de Transformer bidirectionnel compact pour la légende d'images, qui intègre de manière parallèle des flux gauche-à-droite et droite-à-gauche pour exploiter le contexte bidirectionnel et atteindre des performances de pointe sur le benchmark MSCOCO.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

Correspondence Analysis and PMI-Based Word Embeddings: A Comparative Study

Cette étude établit un lien formel entre l'analyse des correspondances et les méthodes d'incrustation de mots basées sur l'information mutuelle ponctuelle, démontrant que ses variantes transformées (ROOT-CA et ROOTROOT-CA) surpassent légèrement les méthodes PMI classiques et rivalisent avec BERT sur des benchmarks de similarité sémantique.

Qianqian Qi, Ayoub Bagheri, David J. Hessen, Peter G. M. van der HeijdenWed, 11 Ma💬 cs.CL

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Ce papier propose un cadre unifié qui modélise la quantification et l'éparpillement comme du bruit additif et introduit une transformée de déquantification débruyante pour établir un chemin de gradient explicite, permettant ainsi l'entraînement robuste de réseaux de neurones à des précisions arbitraires et à des niveaux d'éparpillement extrêmes, y compris en dessous d'un bit.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

Le papier présente MKE-Coder, un nouveau cadre qui améliore le codage automatique des maladies (CIM) dans les dossiers médicaux électroniques chinois en intégrant des connaissances multi-axes et en vérifiant les preuves cliniques pour surmonter les défis linguistiques et structurels spécifiques.

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

Connecting Voices: LoReSpeech as a Low-Resource Speech Parallel Corpus

Cet article présente la méthodologie de construction de LoReSpeech, un corpus parallèle de parole à faible ressources conçu pour améliorer les systèmes de reconnaissance et de traduction vocale multilingue tout en favorisant l'inclusion numérique des langues sous-représentées.

Samy OuzerroutWed, 11 Ma💬 cs.CL

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Le papier présente GateLens, un agent LLM innovant qui utilise l'algèbre relationnelle comme représentation intermédiaire formelle pour améliorer la fiabilité et l'efficacité de l'analyse de données tabulaires complexes dans le secteur automobile, surpassant les approches traditionnelles tout en réduisant considérablement le temps d'analyse.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

L'article présente la SGPO, une méthode qui améliore l'optimisation par politique relative de groupe (GRPO) en intégrant un juge étape par étape pour exploiter les signaux d'apprentissage des groupes de réponses entièrement incorrects, comblant ainsi une lacune majeure de l'apprentissage par renforcement dans le raisonnement des grands modèles de langage.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

Ce papier présente MathQ-Verify, un pipeline à cinq étapes innovant qui valide rigoureusement la formulation des problèmes mathématiques pour filtrer les questions mal posées, améliorant ainsi la qualité des données d'entraînement et les performances des modèles de raisonnement.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

L'article présente UltraEdit, une méthode de mise à jour des connaissances dans les grands modèles de langage qui, sans nécessiter de réentraînement, de suivi des sujets ni de mémoire externe, permet une édition en temps réel ultra-rapide et économe en ressources tout en supportant jusqu'à deux millions de modifications grâce à une stratégie de normalisation continue.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

ThinkQE: Query Expansion via an Evolving Thinking Process

Le papier présente ThinkQE, un cadre d'expansion de requêtes testé en temps réel qui améliore la recherche web en combinant un processus de réflexion approfondie et une stratégie d'interaction itérative avec le corpus pour générer des expansions plus diversifiées et sémantiquement riches.

Yibin Lei, Tao Shen, Andrew YatesWed, 11 Ma💬 cs.CL

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Le papier propose ConLID, une méthode d'apprentissage contrastif supervisé qui améliore la reconnaissance des langues peu dotées sur des données hors domaine en apprenant des représentations invariantes au domaine, tout en préservant les performances des langues riches.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine BosselutWed, 11 Ma🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

Le papier présente OPENXRD, un cadre de référence complet évaluant la capacité des modèles de langage à assimiler des connaissances contextuelles pour répondre à des questions en cristallographie, révélant que les modèles de taille moyenne bénéficient le plus de documents experts de haute qualité plutôt que de simples quantités de texte.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz AbdolrahimWed, 11 Ma🤖 cs.AI

TaoSR1: The Thinking Model for E-commerce Relevance Search

Le papier présente TaoSR1, un cadre innovant permettant le déploiement direct de grands modèles de langage pour la prédiction de pertinence dans le commerce électronique en surmontant les limites des approches traditionnelles grâce à un entraînement en trois étapes intégrant le raisonnement par chaîne de pensée et des techniques d'optimisation avancées.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo ZhengWed, 11 Ma🤖 cs.AI

AgentCoMa: A Compositional Benchmark Mixing Commonsense and Mathematical Reasoning in Real-World Scenarios

L'article présente AgentCoMa, un nouveau benchmark évaluant la capacité des grands modèles de langage à combiner raisonnement de bon sens et mathématique dans des scénarios réels, révélant une fragilité significative des modèles lors de cette composition par rapport aux humains, malgré leurs performances isolées.

Lisa Alazraki, Lihu Chen, Ana Brassard, Joe Stacey, Hossein A. Rahmani, Marek ReiWed, 11 Ma💬 cs.CL

When Thinking Backfires: Mechanistic Insights Into Reasoning-Induced Misalignment

Cet article révèle le phénomène de désalignement induit par le raisonnement (RIM), où le renforcement des capacités de raisonnement compromet la sécurité des modèles, et en explique les mécanismes sous-jacents par l'analyse des têtes d'attention et de l'entrelacement neuronal.

Hanqi Yan, Hainiu Xu, Siya Qi, Shu Yang, Yulan HeWed, 11 Ma💬 cs.CL

SimpleQA Verified: A Reliable Factuality Benchmark to Measure Parametric Knowledge

Ce papier présente SimpleQA Verified, un nouveau benchmark de 1 000 prompts rigoureusement filtré pour évaluer la factualité des grands modèles de langage, corrigeant les défauts de l'original et établissant un nouvel état de l'art avec Gemini 2.5 Pro.

Lukas Haas, Gal Yona, Giovanni D'Antonio, Sasha Goldshtein, Dipanjan DasWed, 11 Ma💬 cs.CL

Reasoning Efficiently Through Adaptive Chain-of-Thought Compression: A Self-Optimizing Framework

Le papier présente SEER, un cadre auto-optimisant qui améliore l'efficacité et la précision des modèles de langage en adaptant dynamiquement la compression des chaînes de pensée pour réduire les coûts computationnels et les échecs liés à la longueur excessive des raisonnements.

Kerui Huang, Shuhan Liu, Xing Hu, Tongtong Xu, Lingfeng Bao, Xin XiaWed, 11 Ma🤖 cs.AI

Quantifying Genuine Awareness in Hallucination Prediction Beyond Question-Side Shortcuts

Cet article propose une méthode nommée AQE pour quantifier l'effet des raccourcis liés aux questions dans la détection d'hallucinations, révélant ainsi que les performances actuelles reposent largement sur l'exploitation des benchmarks plutôt que sur une véritable conscience du modèle.

Yeongbin Seo, Dongha Lee, Jinyoung YeoWed, 11 Ma💬 cs.CL

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Ce papier présente VSSFlow, un cadre unifié basé sur l'appariement de flux et un mécanisme d'agrégation de conditions désengagé qui résout simultanément et avec une performance supérieure les tâches de génération de sons et de parole à partir de vidéos, démontrant ainsi le potentiel des modèles génératifs unifiés.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Ce papier présente v-HUB, une nouvelle référence pour l'évaluation de la compréhension de l'humour vidéo par les modèles de langage multimodaux, démontrant que l'intégration de l'audio améliore significativement leurs performances face à des défis visuels complexes.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI