cs.AI articles | Gist.Science

Time, Identity and Consciousness in Language Model Agents

Ce papier propose un outil d'évaluation conservateur pour la conscience des agents de modèles linguistiques, qui distingue la simple capacité à parler d'un soi stable de l'organisation réelle d'une identité persistante en appliquant la théorie de la pile pour séparer les occurrences temporelles des co-instantiations objectives.

Elija Perrier, Michael Timothy Bennett2026-03-11🤖 cs.AI

EPOCH: An Agentic Protocol for Multi-Round System Optimization

Le papier présente EPOCH, un protocole d'ingénierie unifié qui structure l'optimisation autonome des systèmes en plusieurs phases et rôles distincts pour garantir la stabilité, la traçabilité et l'amélioration itérative de composants hétérogènes tels que les prompts, le code et les configurations de modèles.

Zhanlin Liu, Yitao Li, Munirathnam Srikanth2026-03-11🤖 cs.AI

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

L'agent autonome Sentinel, doté d'une capacité de raisonnement multi-étapes, surpasse les cliniciens individuels en sensibilité pour le triage des données de surveillance à distance des patients, offrant ainsi une solution évolutive et rentable pour transformer des volumes massifs de données en alertes cliniques fiables.

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Le papier propose Sim2Act, un cadre d'apprentissage robuste de la simulation à la décision qui améliore la fiabilité des politiques dans des domaines critiques comme la chaîne d'approvisionnement en combinant une calibration adversaire des erreurs de simulation et une stratégie de perturbation relative de groupe pour stabiliser l'apprentissage sans sacrifier les actions à haut risque et haut rendement.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie Fu2026-03-11🤖 cs.AI

A Text-Native Interface for Generative Video Authoring

Ce papier présente Doki, une interface d'écriture de vidéos génératives axée sur le texte qui permet aux utilisateurs de créer, structurer et éditer des histoires visuelles directement dans un document textuel, rendant ainsi la création vidéo aussi accessible que l'écriture.

Xingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li2026-03-11🤖 cs.AI

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Le papier présente GST-VLA, un modèle d'action vision-langage qui améliore la précision des tâches robotiques en intégrant des tokens spatiaux gaussiens 3D structurés pour une géométrie métrique et un raisonnement en chaîne de pensée conscient de la profondeur, atteignant ainsi des performances record sur les benchmarks LIBERO et SimplerEnv.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Cette étude démontre que l'intégration de scores de sentiment extraits par un modèle de langage finetuné (Qwen3) à partir de titres d'actualités améliore considérablement la prévision des prix de l'aluminium et la performance des stratégies de trading lors des périodes de forte volatilité, surpassant les modèles basés uniquement sur des données tabulaires.

Alvaro Paredes Amorin, Andre Python, Christoph Weisser2026-03-11🤖 cs.AI

Latent World Models for Automated Driving: A Unified Taxonomy, Evaluation Framework, and Open Challenges

Cet article propose un cadre unifié pour les modèles de monde latents en conduite automatisée, établissant une taxonomie, des mécanismes internes et des protocoles d'évaluation pour améliorer la robustesse, la généralisation et l'efficacité des systèmes de décision.

Rongxiang Zeng, Yongqi Dong2026-03-11🤖 cs.AI

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Cet article propose un cadre basé sur les transformers pour la recherche de cas de cancer de la peau en combinant une image de référence et un texte descriptif, en alignant simultanément des représentations globales et locales pour améliorer la précision du diagnostic.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med est un cadre novateur qui utilise un grand modèle de langage (LLM) comme enseignant sémantique structuré pour pré-entraîner des transformeurs de vision médicaux légers et déployables, surpassant les méthodes existantes en précision tout en nécessitant considérablement moins de données et sans conserver le LLM après l'entraînement.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

PM-Nav: Priori-Map Guided Embodied Navigation in Functional Buildings

Le papier propose PM-Nav, un cadre de navigation guidé par des cartes sémantiques a priori et un mécanisme de collaboration multi-modèles, qui surpasse considérablement les méthodes existantes pour la navigation dans des bâtiments fonctionnels aux caractéristiques très similaires.

Jiang Gao, Xiangyu Dong, Haozhou Li, Haoran Zhao, Yaoming Zhou, Xiaoguang Ma2026-03-11🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Le papier présente DexHiL, un cadre innovant d'apprentissage avec humain dans la boucle conçu pour le post-entraînement de modèles vision-langage-action, permettant une téléopération coordonnée bras-main et améliorant significativement les taux de réussite dans la manipulation dexterse par rapport aux méthodes de fine-tuning offline.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao Lian2026-03-11🤖 cs.AI

QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

Le modèle QUSR propose une approche de super-résolution d'images par diffusion qui combine un générateur de bruit guidé par l'incertitude pour préserver les détails et un prior de qualité issu d'un modèle de langage multimodal, afin de restaurer efficacement des images dégradées dans des scénarios réels complexes.

Junjie Yin, Jiaju Li, Hanfa Xing2026-03-11🤖 cs.AI

Chaotic Dynamics in Multi-LLM Deliberation

Cette étude modélise les comités d'IA multi-LLM comme des systèmes dynamiques aléatoires et démontre que la différenciation des rôles et l'hétérogénéité des modèles provoquent une instabilité chaotique imprévue, même dans des régimes supposés déterministes, soulignant ainsi la nécessité d'audits de stabilité pour les systèmes de gouvernance collective.

Hajime Shimao, Warut Khern-am-nuai, Sung Joo Kim2026-03-11🤖 cs.AI

Causally Sufficient and Necessary Feature Expansion for Class-Incremental Learning

Cet article propose une méthode de régularisation basée sur la probabilité de nécessité et de suffisance (PNS), étendue au contexte de l'apprentissage incrémental de classes, pour guider l'expansion des caractéristiques et atténuer les collisions causées par des corrélations factices intra- et inter-tâches.

Zhen Zhang, Jielei Chu, Tianrui Li2026-03-11🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

Ce papier propose un cadre agentique novateur pour la recherche tabulaire profonde, qui formalise le raisonnement sur des tableaux non structurés comme un processus décisionnel en boucle fermée intégrant un graphe de métadonnées hiérarchique, une politique de sélection consciente des attentes et une mémoire structurée pour un raffinement continu.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue Huang2026-03-11🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Le papier présente DataFactory, un cadre collaboratif multi-agents qui surpasse les approches LLM existantes pour le questionnement sur les tableaux en combinant une orchestration de raisonnement, une transformation automatique des données en graphes de connaissances et une délibération flexible entre agents spécialisés pour améliorer la précision et réduire les hallucinations.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang Zhao2026-03-11🤖 cs.AI

Real-Time Trust Verification for Safe Agentic Actions using TrustBench

Le papier présente TrustBench, un cadre en temps réel qui vérifie la sécurité des agents autonomes avant l'exécution de leurs actions, réduisant ainsi les comportements nuisibles de 87 % grâce à des plugins spécifiques à chaque domaine.

Tavishi Sharma, Vinayak Sharma, Pragya Sharma2026-03-11🤖 cs.AI

RubiCap: Rubric-Guided Reinforcement Learning for Dense Image Captioning

Le papier présente RubiCap, un cadre d'apprentissage par renforcement guidé par des rubriques générées par LLM qui surpasse les méthodes d'enseignement distillé et les approches RL existantes en matière de légendage d'images dense, en offrant des récompenses structurées et une efficacité supérieure avec des modèles plus compacts.

Tzu-Heng Huang, Sirajul Salekin, Javier Movellan, Frederic Sala, Manjot Bilkhu2026-03-11🤖 cs.AI

Wrong Code, Right Structure: Learning Netlist Representations from Imperfect LLM-Generated RTL

Cet article propose un cadre d'apprentissage innovant qui exploite le code RTL généré par des LLMs, bien que fonctionnellement imparfait, pour entraîner des modèles de représentation de netlists capables de généraliser aux circuits réels et de surmonter la pénurie de données étiquetées.

Siyang Cai, Cangyuan Li, Yinhe Han, Ying Wang2026-03-11🤖 cs.AI

← Précédent Suivant →