cs.AI articles | Gist.Science

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med est un cadre novateur qui utilise un grand modèle de langage (LLM) comme enseignant sémantique structuré pour pré-entraîner des transformeurs de vision médicaux légers et déployables, surpassant les méthodes existantes en précision tout en nécessitant considérablement moins de données et sans conserver le LLM après l'entraînement.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Le papier propose PM-Nav, un cadre de navigation guidé par des cartes sémantiques a priori et un mécanisme de collaboration multi-modèles, qui surpasse considérablement les méthodes existantes pour la navigation dans des bâtiments fonctionnels aux caractéristiques très similaires.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Le papier présente DexHiL, un cadre innovant d'apprentissage avec humain dans la boucle conçu pour le post-entraînement de modèles vision-langage-action, permettant une téléopération coordonnée bras-main et améliorant significativement les taux de réussite dans la manipulation dexterse par rapport aux méthodes de fine-tuning offline.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Le modèle QUSR propose une approche de super-résolution d'images par diffusion qui combine un générateur de bruit guidé par l'incertitude pour préserver les détails et un prior de qualité issu d'un modèle de langage multimodal, afin de restaurer efficacement des images dégradées dans des scénarios réels complexes.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

Cette étude modélise les comités d'IA multi-LLM comme des systèmes dynamiques aléatoires et démontre que la différenciation des rôles et l'hétérogénéité des modèles provoquent une instabilité chaotique imprévue, même dans des régimes supposés déterministes, soulignant ainsi la nécessité d'audits de stabilité pour les systèmes de gouvernance collective.

Hajime Shimao, Warut Khern-am-nuai, Sung Joo Kim2026-03-11🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Cet article propose une méthode de régularisation basée sur la probabilité de nécessité et de suffisance (PNS), étendue au contexte de l'apprentissage incrémental de classes, pour guider l'expansion des caractéristiques et atténuer les collisions causées par des corrélations factices intra- et inter-tâches.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

Ce papier propose un cadre agentique novateur pour la recherche tabulaire profonde, qui formalise le raisonnement sur des tableaux non structurés comme un processus décisionnel en boucle fermée intégrant un graphe de métadonnées hiérarchique, une politique de sélection consciente des attentes et une mémoire structurée pour un raffinement continu.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Le papier présente DataFactory, un cadre collaboratif multi-agents qui surpasse les approches LLM existantes pour le questionnement sur les tableaux en combinant une orchestration de raisonnement, une transformation automatique des données en graphes de connaissances et une délibération flexible entre agents spécialisés pour améliorer la précision et réduire les hallucinations.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

Le papier présente TrustBench, un cadre en temps réel qui vérifie la sécurité des agents autonomes avant l'exécution de leurs actions, réduisant ainsi les comportements nuisibles de 87 % grâce à des plugins spécifiques à chaque domaine.

Tavishi Sharma, Vinayak Sharma, Pragya Sharma2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Le papier présente RubiCap, un cadre d'apprentissage par renforcement guidé par des rubriques générées par LLM qui surpasse les méthodes d'enseignement distillé et les approches RL existantes en matière de légendage d'images dense, en offrant des récompenses structurées et une efficacité supérieure avec des modèles plus compacts.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Cet article propose un cadre d'apprentissage innovant qui exploite le code RTL généré par des LLMs, bien que fonctionnellement imparfait, pour entraîner des modèles de représentation de netlists capables de généraliser aux circuits réels et de surmonter la pénurie de données étiquetées.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

GIAT: A Geologically-Informed Attention Transformer for Lithology Identification

Ce papier propose GIAT, un nouveau cadre Transformer enrichi par des connaissances géologiques via un mécanisme d'attention biaisée, qui améliore considérablement la précision et l'interprétabilité de l'identification des lithologies à partir des diagraphies de puits.

Jie Li, Qishun Yang, Nuo Li2026-03-11🤖 cs.AI

ZeroWBC: Learning Natural Visuomotor Humanoid Control Directly from Human Egocentric Video

ZeroWBC est un cadre novateur qui permet d'apprendre directement à partir de vidéos humaines à la première personne un contrôle visuomoteur naturel pour les robots humanoïdes, éliminant ainsi le besoin de données de téléopération coûteuses et permettant des interactions complexes avec l'environnement.

Haoran Yang, Jiacheng Bao, Yucheng Xin, Haoming Song, Yuyang Tian, Bin Zhao, Dong Wang, Xuelong Li2026-03-11🤖 cs.AI

Reinforced Generation of Combinatorial Structures: Ramsey Numbers

En utilisant AlphaEvolve, un agent de mutation de code basé sur un modèle de langage, cette étude améliore les bornes inférieures de cinq nombres de Ramsey classiques et démontre la capacité d'un algorithme méta unique à générer des algorithmes de recherche performants pour l'ensemble de ces résultats.

Ansh Nagda, Prabhakar Raghavan, Abhradeep Thakurta2026-03-11🤖 cs.AI

Differentiable Stochastic Traffic Dynamics: Physics-Informed Generative Modelling in Transportation

Cet article propose un cadre d'apprentissage profond généré physiquement qui modélise la dynamique du trafic macroscopique comme un processus stochastique via une équation de flux de probabilité déterministe, permettant ainsi l'estimation d'états de trafic sous forme de distributions complètes plutôt que de simples valeurs ponctuelles.

Wuping Xin2026-03-11🤖 cs.AI

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Le papier présente DuplexCascade, un pipeline de dialogue vocal en duplex intégral sans détection de parole (VAD) qui transforme les tours de parole longs en micro-tours pour permettre des échanges bidirectionnels rapides tout en préservant l'intelligence conversationnelle des grands modèles de langage.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

Latent-DARM: Bridging Discrete Diffusion And Autoregressive Models For Reasoning

Le papier présente Latent-DARM, un cadre de communication dans l'espace latent qui combine les modèles de diffusion discrets pour la planification et les modèles autoregressifs pour l'exécution, permettant ainsi une collaboration multi-agent plus efficace et économe en tokens pour le raisonnement complexe.

Lina Berrayana, Ahmed Heakl, Abdullah Sohail, Thomas Hofmann, Salman Khan, Wei Chen2026-03-11🤖 cs.AI

Explainable Innovation Engine: Dual-Tree Agent-RAG with Methods-as-Nodes and Verifiable Write-Back

Ce papier présente un moteur d'innovation explicable qui améliore les systèmes RAG en remplaçant les fragments de texte par des nœuds de méthodes organisés en arbres de double structure, permettant ainsi une synthèse contrôlée, traçable et vérifiable via un agent stratégique et un mécanisme de rétroaction validée.

Renwei Meng2026-03-11🤖 cs.AI

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Ce papier soutient que l'amélioration des capacités de raisonnement logique des modèles de langage crée inévitablement des voies mécanistes vers une conscience situationnelle accrue et potentiellement dangereuse, et propose le cadre RAISE ainsi que de nouvelles mesures de sécurité pour atténuer ces risques émergents.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Evaluate-as-Action: Self-Evaluated Process Rewards for Retrieval-Augmented Agents

Le papier propose \textsc{EvalAct}, une méthode qui transforme l'évaluation implicite de la qualité des recherches en une action explicite couplée à un protocole de recherche-évaluation, permettant d'optimiser les agents de récupération-augmentée grâce à une nouvelle technique d'apprentissage par renforcement appelée PCAR pour améliorer la fiabilité du raisonnement multi-étapes.

Jiangming Shu, Yuxiang Zhang, Ye Ma, Xueyuan Lin, Jitao Sang2026-03-11🤖 cs.AI

← Précédent Suivant →