cs.AI articles | Gist.Science

ReHARK: Refined Hybrid Adaptive RBF Kernels for Robust One-Shot Vision-Language Adaptation

Le papier présente ReHARK, un cadre d'adaptation sans entraînement qui résout le dilemme stabilité-plasticité dans l'apprentissage vision-langage en un seul exemple grâce à une régularisation globale dans un espace de Hilbert à noyaux reproduisants et à une pipeline de raffinement multistade, établissant ainsi un nouvel état de l'art avec une précision moyenne de 65,83 % sur 11 benchmarks.

Md Jahidul Islam2026-03-13🤖 cs.AI

One Supervisor, Many Modalities: Adaptive Tool Orchestration for Autonomous Queries

Ce papier présente un cadre d'IA agentique autonome qui orchestre dynamiquement des outils spécialisés pour traiter des requêtes multimodales, réduisant ainsi significativement le temps de réponse, les reformulations et les coûts tout en maintenant une précision équivalente aux approches hiérarchiques.

Mayank Saini Arit Kumar Bishwas2026-03-13💬 cs.CL

MANSION: Multi-floor lANguage-to-3D Scene generatIOn for loNg-horizon tasks

Le papier présente MANSION, le premier cadre de génération d'environnements 3D multi-étages à l'échelle d'un bâtiment piloté par le langage, ainsi que MansionWorld, un jeu de données de plus de 1 000 bâtiments diversifiés conçu pour évaluer et améliorer les capacités de raisonnement spatial et de planification à long horizon des agents robotiques.

Lirong Che, Shuo Wen, Shan Huang, Chuang Wang, Yuzhe Yang, Gregory Dudek, Xueqian Wang, Jian Su2026-03-13🤖 cs.AI

RoboClaw: An Agentic Framework for Scalable Long-Horizon Robotic Tasks

Le papier présente RoboClaw, un cadre robotique agentic unifié qui intègre la collecte de données, l'apprentissage et l'exécution via un contrôleur VLM et des paires d'actions entrelacées pour permettre l'acquisition autonome de données et l'amélioration itérative des politiques, réduisant ainsi l'intervention humaine et augmentant le taux de réussite des tâches robotiques à long horizon.

Ruiying Li, Yunlang Zhou, YuYao Zhu, Kylin Chen, Jingyuan Wang, Sukai Wang, Kongtao Hu, Minhui Yu, Bowen Jiang, Zhan Su, Jiayao Ma, Xin He, Yongjian Shen, Yangyang, Guanghui Ren, Maoqing Yao, Wenhao Wang, Yao Mu2026-03-13🤖 cs.AI

AI Knows What's Wrong But Cannot Fix It: Helicoid Dynamics in Frontier LLMs Under High-Stakes Decisions

Cette étude prospective révèle que les grands modèles de langage, bien qu'identifiant leurs propres erreurs, tendent à reproduire des schémas d'erreurs sophistiqués dans des situations à haut risque où la vérification est impossible, privilégiant ainsi le confort au détriment de la fiabilité.

Alejandro R Jadad2026-03-13🤖 cs.AI

How Intelligence Emerges: A Minimal Theory of Dynamic Adaptive Coordination

Ce papier propose une théorie dynamique de la coordination adaptative dans les systèmes multi-agents, démontrant que l'intelligence émerge de l'interaction couplée entre agents, incitations et environnement persistant sans nécessiter d'optimisation globale ni de conception centralisée.

Stefano Grassi2026-03-13📈 econ

UtilityMax Prompting: A Formal Framework for Multi-Objective Large Language Model Optimization

Cet article présente le « UtilityMax Prompting », un cadre formel utilisant des diagrammes d'influence et des fonctions d'utilité mathématiques pour optimiser les réponses des grands modèles de langage dans des tâches multi-objectifs, démontrant ainsi des performances supérieures aux approches par langage naturel sur des recommandations de films.

Ofir Marom2026-03-13💬 cs.CL

Toward Complex-Valued Neural Networks for Waveform Generation

Ce papier présente ComVo, un vocodeur neuronal complexe natif qui améliore la qualité de la génération d'audio et réduit le temps d'entraînement grâce à l'utilisation d'arithmétique complexe, d'une quantification de phase et d'un schéma de calcul matriciel par blocs.

Hyung-Seok Oh, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan Lee2026-03-13🤖 cs.AI

Leveraging Large Language Models and Survival Analysis for Early Prediction of Chemotherapy Outcomes

Cette étude propose une approche combinant les grands modèles de langage et l'analyse de survie pour extraire automatiquement des phénotypes et des résultats de traitement à partir de notes cliniques, permettant ainsi de prédire avec précision les résultats de la chimiothérapie pour le cancer du sein et d'autres types de cancers afin d'améliorer la prise de décision médicale.

Muhammad Faisal Shahid, Asad Afzal, Abdullah Faiz, Muhammad Siddiqui, Arbaz Khan Shehzad, Fatima Aftab, Muhammad Usamah Shahid, Muddassar Farooq2026-03-13🤖 cs.AI

Performance Evaluation of Open-Source Large Language Models for Assisting Pathology Report Writing in Japanese

Cette étude évalue sept grands modèles de langage open-source pour l'assistance à la rédaction de rapports d'anatomie pathologique en japonais, démontrant leur utilité dans des scénarios cliniques spécifiques tels que la génération structurée et la correction de fautes, bien que les préférences pour les explications varient considérablement selon les évaluateurs.

Masataka Kawai, Singo Sakashita, Shumpei Ishikawa, Shogo Watanabe, Anna Matsuoka, Mikio Sakurai, Yasuto Fujimoto, Yoshiyuki Takahara, Atsushi Ohara, Hirohiko Miyake, Genichiro Ishii2026-03-13💬 cs.CL

Survival Meets Classification: A Novel Framework for Early Risk Prediction Models of Chronic Diseases

Cet article présente un cadre novateur qui intègre l'analyse de survie et la classification pour prédire le risque précoce de cinq maladies chroniques courantes à partir de données médicales, démontrant des performances supérieures ou comparables aux modèles d'état de l'art tout en fournissant des explications validées cliniquement.

Shaheer Ahmad Khan, Muhammad Usamah Shahid, Muddassar Farooq2026-03-13🤖 cs.LG

See, Symbolize, Act: Grounding VLMs with Spatial Representations for Better Gameplay

Cette étude démontre que l'intégration de représentations symboliques améliore les performances des modèles vision-langage dans les jeux interactifs, mais uniquement lorsque l'extraction de ces symboles à partir des images est fiable, révélant ainsi que la qualité de la perception constitue le principal goulot d'étranglement pour ces agents.

Ashish Baghel, Paras Chopra2026-03-13🤖 cs.AI

Taming OpenClaw: Security Analysis and Mitigation of Autonomous LLM Agent Threats

Cet article présente une analyse de sécurité complète des agents autonomes LLM comme OpenClaw en introduisant un cadre à cinq couches pour identifier des menaces systémiques complexes et proposer des stratégies de défense holistiques face aux limites des mécanismes de protection actuels.

Xinhao Deng, Yixiang Zhang, Jiaqing Wu, Jiaqi Bai, Sibo Yi, Zhuoheng Zou, Yue Xiao, Rennai Qiu, Jianan Ma, Jialuo Chen, Xiaohu Du, Xiaofang Yang, Shiwen Cui, Changhua Meng, Weiqiang Wang, Jiaxing Song, Ke Xu, Qi Li2026-03-13🤖 cs.AI

The Density of Cross-Persistence Diagrams and Its Applications

Cet article présente la première étude systématique de la densité des diagrammes de persistance croisée, établissant ses fondements théoriques et un cadre d'apprentissage automatique qui permet non seulement de prédire cette densité à partir de nuages de points, mais aussi de distinguer efficacement des variétés sous-jacentes, révélant même l'utilité du bruit pour améliorer cette discrimination.

Alexander Mironenko, Evgeny. Burnaev, Serguei Barannikov2026-03-13🤖 cs.AI

MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

Le papier présente MedPruner, un cadre d'élagage de tokens hiérarchique et sans entraînement conçu pour éliminer la redondance anatomique dans les modèles vision-langage médicaux 3D, permettant une compression dynamique des tokens qui réduit considérablement la charge computationnelle tout en préservant, voire en améliorant, les performances.

Shengyuan Liu, Zanting Ye, Yunrui Lin, Chen Hu, Wanting Geng, Xu Han, Bulat Ibragimov, Yefeng Zheng, Yixuan Yuan2026-03-13🤖 cs.AI

VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought

Le papier présente VisDoT, un cadre qui améliore le raisonnement visuel en s'inspirant de la perception humaine pour séparer la perception visuelle de la logique, permettant ainsi d'obtenir des performances de pointe sur la compréhension de graphiques et des benchmarks de questions-réponses visuelles.

Eunsoo Lee, Jeongwoo Lee, Minki Hong, Jangho Choi, Jihie Kim2026-03-13🤖 cs.AI

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

Le papier présente HouseMind, un modèle de langage multimodal qui unifie la compréhension, la génération et l'édition de plans d'étage architecturaux en utilisant des tokens discrets pour surmonter les défis du raisonnement spatial et de la génération contrôlée.

Sizhong Qin, Ramon Elias Weber, Xinzheng Lu2026-03-13🤖 cs.AI

IDRL: An Individual-Aware Multimodal Depression-Related Representation Learning Framework for Depression Diagnosis

Le papier propose IDRL, un cadre d'apprentissage de représentations multimodales conscient de l'individu qui améliore le diagnostic de la dépression en désintriquant les signaux pertinents du bruit et en adaptant dynamiquement la fusion des modalités aux spécificités de chaque patient.

Chongxiao Wang, Junjie Liang, Peng Cao, Jinzhu Yang, Osmar R. Zaiane2026-03-13🤖 cs.AI

Stable Spike: Dual Consistency Optimization via Bitwise AND Operations for Spiking Neural Networks

Ce papier présente la méthode Stable Spike, qui optimise la cohérence des réseaux de neurones à impulsions (SNN) en découplant un squelette d'impulsions stable via des opérations logiques ET, réduisant ainsi les incohérences temporelles et améliorant significativement la précision de reconnaissance d'objets avec une latence ultra-faible.

Yongqi Ding, Kunshan Yang, Linze Li, Yiyang Zhang, Mengmeng Jing, Lin Zuo2026-03-13🤖 cs.AI

From Control to Foresight: Simulation as a New Paradigm for Human-Agent Collaboration

Cet article de perspective propose le paradigme de la « simulation en boucle » pour transformer la collaboration humain-agent en offrant aux utilisateurs une capacité de prévision des trajectoires futures, remplaçant ainsi le contrôle réactif et limité par une exploration éclairée des conséquences à long terme.

Gaole He, Brian Y. Lim2026-03-13💬 cs.CL

← Précédent Suivant →