PlayWorld: Learning Robot World Models from Autonomous Play

Le papier présente PlayWorld, un pipeline autonome et évolutif qui entraîne des simulateurs vidéo de monde robotique à partir de l'auto-jeu non supervisé, permettant de prédire avec précision les interactions physiques complexes et d'améliorer significativement les performances des politiques d'apprentissage par renforcement dans le monde réel par rapport aux données collectées par des humains.

Tenny Yin, Zhiting Mei, Zhonghe Zheng, Miyu Yamane, David Wang, Jade Sceats, Samuel M. Bateman, Lihan Zha, Apurva Badithela, Ola Shorinwa, Anirudha MajumdarWed, 11 Ma🤖 cs.AI

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Ce papier présente WS-Net, un cadre d'analyse de démixage hyperspectral innovant qui combine la modélisation par espace d'états et une attention dédiée aux signaux faibles pour surmonter l'effacement des réponses spectrales subtiles et améliorer significativement la précision de l'estimation des abondances, même dans des conditions de faible rapport signal sur bruit.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

L'agent autonome Sentinel, doté d'une capacité de raisonnement multi-étapes, surpasse les cliniciens individuels en sensibilité pour le triage des données de surveillance à distance des patients, offrant ainsi une solution évolutive et rentable pour transformer des volumes massifs de données en alertes cliniques fiables.

Seunghwan Kim (AnsibleHealth Inc., San Francisco, USA), Tiffany H. Kung (AnsibleHealth Inc., San Francisco, USA, Stanford School of Medicine, Stanford, USA), Heena Verma (AnsibleHealth Inc., San Francisco, USA), Dilan Edirisinghe (AnsibleHealth Inc., San Francisco, USA), Kaveh Sedehi (AnsibleHealth Inc., San Francisco, USA), Johanna Alvarez (AnsibleHealth Inc., San Francisco, USA), Diane Shilling (AnsibleHealth Inc., San Francisco, USA), Audra Lisa Doyle (AnsibleHealth Inc., San Francisco, USA), Ajit Chary (AnsibleHealth Inc., San Francisco, USA), William Borden (AnsibleHealth Inc., San Francisco, USA, George Washington University, Washington, D.C., USA), Ming Jack Po (AnsibleHealth Inc., San Francisco, USA)Wed, 11 Ma🤖 cs.AI

Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation

Le papier propose Sim2Act, un cadre d'apprentissage robuste de la simulation à la décision qui améliore la fiabilité des politiques dans des domaines critiques comme la chaîne d'approvisionnement en combinant une calibration adversaire des erreurs de simulation et une stratégie de perturbation relative de groupe pour stabiliser l'apprentissage sans sacrifier les actions à haut risque et haut rendement.

Hongyu Cao, Jinghan Zhang, Kunpeng Liu, Dongjie Wang, Feng Xia, Haifeng Chen, Xiaohua Hu, Yanjie FuWed, 11 Ma🤖 cs.AI

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Le papier présente GST-VLA, un modèle d'action vision-langage qui améliore la précision des tâches robotiques en intégrant des tokens spatiaux gaussiens 3D structurés pour une géométrie métrique et un raisonnement en chaîne de pensée conscient de la profondeur, atteignant ainsi des performances record sur les benchmarks LIBERO et SimplerEnv.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

Not All News Is Equal: Topic- and Event-Conditional Sentiment from Finetuned LLMs for Aluminum Price Forecasting

Cette étude démontre que l'intégration de scores de sentiment extraits par un modèle de langage finetuné (Qwen3) à partir de titres d'actualités améliore considérablement la prévision des prix de l'aluminium et la performance des stratégies de trading lors des périodes de forte volatilité, surpassant les modèles basés uniquement sur des données tabulaires.

Alvaro Paredes Amorin, Andre Python, Christoph WeisserWed, 11 Ma🤖 cs.AI

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Cet article propose un cadre basé sur les transformers pour la recherche de cas de cancer de la peau en combinant une image de référence et un texte descriptif, en alignant simultanément des représentations globales et locales pour améliorer la précision du diagnostic.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. LeeWed, 11 Ma🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med est un cadre novateur qui utilise un grand modèle de langage (LLM) comme enseignant sémantique structuré pour pré-entraîner des transformeurs de vision médicaux légers et déployables, surpassant les méthodes existantes en précision tout en nécessitant considérablement moins de données et sans conserver le LLM après l'entraînement.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe QiuWed, 11 Ma🤖 cs.AI

DexHiL: A Human-in-the-Loop Framework for Vision-Language-Action Model Post-Training in Dexterous Manipulation

Le papier présente DexHiL, un cadre innovant d'apprentissage avec humain dans la boucle conçu pour le post-entraînement de modèles vision-langage-action, permettant une téléopération coordonnée bras-main et améliorant significativement les taux de réussite dans la manipulation dexterse par rapport aux méthodes de fine-tuning offline.

Yifan Han, Zhongxi Chen, Yuxuan Zhao, Congsheng Xu, Yanming Shao, Yichuan Peng, Yao Mu, Wenzhao LianWed, 11 Ma🤖 cs.AI

Deep Tabular Research via Continual Experience-Driven Execution

Ce papier propose un cadre agentique novateur pour la recherche tabulaire profonde, qui formalise le raisonnement sur des tableaux non structurés comme un processus décisionnel en boucle fermée intégrant un graphe de métadonnées hiérarchique, une politique de sélection consciente des attentes et une mémoire structurée pour un raffinement continu.

Junnan Dong, Chuang Zhou, Zheng Yuan, Yifei Yu, Siyu An, Di Yin, Xing Sun, Feiyue HuangWed, 11 Ma🤖 cs.AI

DataFactory: Collaborative Multi-Agent Framework for Advanced Table Question Answering

Le papier présente DataFactory, un cadre collaboratif multi-agents qui surpasse les approches LLM existantes pour le questionnement sur les tableaux en combinant une orchestration de raisonnement, une transformation automatique des données en graphes de connaissances et une délibération flexible entre agents spécialisés pour améliorer la précision et réduire les hallucinations.

Tong Wang, Chi Jin, Yongkang Chen, Huan Deng, Xiaohui Kuang, Gang ZhaoWed, 11 Ma🤖 cs.AI