cs articles | Gist.Science

World2Act: Latent Action Post-Training via Skill-Compositional World Models

Le papier présente World2Act, un cadre d'entraînement postérieur qui améliore la généralisation des agents incarnés en alignant directement les actions des politiques VLA sur des latents de dynamique vidéo via un objectif contrastif, tout en surmontant les limites de durée des modèles du monde grâce à une pipeline de décomposition automatique des compétences par LLM.

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid2026-03-12💻 cs

Reconstructing Bounded Treelength Graphs with Linearithmic Shortest Path Distance Queries

Cet article présente un algorithme déterministe qui reconstruit les graphes connexes à degré et longueur arborescente bornés en utilisant un nombre de requêtes de distance $O(n \log n)$ , améliorant ainsi les résultats précédents d'un facteur logarithmique et atteignant la borne inférieure connue pour les graphes à chordalité bornée.

Chirag Kaudan (Oregon State University), Amir Nayyeri (Oregon State University)2026-03-12💻 cs

COHORT: Hybrid RL for Collaborative Large DNN Inference on Multi-Robot Systems Under Real-Time Constraints

Le papier présente COHORT, un cadre d'inférence collaborative de réseaux de neurones profonds pour systèmes multi-robots qui utilise une stratégie d'apprentissage par renforcement hybride (offline AWR et online MAPPO) pour optimiser la répartition des tâches, réduisant ainsi la consommation d'énergie et augmentant l'utilisation du GPU tout en respectant les contraintes temps réel.

Mohammad Saeid Anwar, Anuradha Ravi, Indrajeet Ghosh, Gaurav Shinde, Carl Busart, Nirmalya Roy2026-03-12💻 cs

A Secure Splitting and Acceleration Strategy for TCP/QUIC in Interplanetary Networks

Cet article propose une stratégie d'accélération et de sécurisation des transports TCP/QUIC pour les réseaux interplanétaires, basée sur une architecture de proxy non transparent (NTSP) et une politique de transport adaptative, qui améliore significativement les performances de débit et de livraison dans des scénarios à forte latence et à liens intermittents.

Jianhao Yu, Ye Li, Qingfang Jiang, Shuai Liu, Wenfeng Li, Kanglian Zhao2026-03-12💻 cs

AsyncMDE: Real-Time Monocular Depth Estimation via Asynchronous Spatial Memory

Le papier présente AsyncMDE, un système de perception de profondeur monoculaire asynchrone et léger qui amortit le coût computationnel des modèles de base en réutilisant les caractéristiques spatiales entre les trames, permettant ainsi un déploiement temps réel sur des plateformes embarquées avec une précision quasi équivalente.

Lianjie Ma, Yuquan Li, Bingzheng Jiang, Ziming Zhong, Han Ding, Lijun Zhu2026-03-12💻 cs

KnowDiffuser: A Knowledge-Guided Diffusion Planner with LM Reasoning and Prior-Informed Trajectory Initialization

Le papier propose KnowDiffuser, un cadre de planification de mouvement guidé par la connaissance qui intègre la compréhension sémantique des modèles de langage avec la puissance générative des modèles de diffusion pour combler l'écart entre la décision sémantique et la faisabilité physique dans la conduite autonome.

Fan Ding, Xuewen Luo, Fengze Yang, Bo Yu, HwaHui Tew, Ganesh Krishnasamy, Junn Yong Loo2026-03-12💻 cs

SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

Le papier présente SignSparK, un cadre d'apprentissage multilingue novateur qui utilise des repères temporels clés et un modèle de flux conditionnel pour générer des avatars de langue des signes 3D fluides et photoréalistes, surmontant ainsi les compromis entre précision linguistique et naturel du mouvement.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

Le papier présente DiT4DiT, un modèle end-to-end couplant des transformateurs de diffusion vidéo et d'action pour améliorer l'apprentissage des politiques robotiques en exploitant la structure spatio-temporelle et la physique implicite des vidéos, ce qui permet d'atteindre des performances de pointe avec une efficacité d'échantillonnage bien supérieure.

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang2026-03-12💻 cs

Machinagogy: Experiments in Staging Teaching Dramas with LLMs

Ce papier présente « Machinagogy », un système de tutorat IA fondé sur la reconnaissance hégélienne et la psychodynamique freudienne, dont la conception, l'évaluation et la documentation ont été réalisées en collaboration avec une IA selon une méthodologie réflexive appelée « scholarship de vibe », démontrant que des prompts enrichis par la reconnaissance améliorent significativement et universellement les performances des tuteurs.

Liam Magee2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

Ce papier présente LCAMV, une méthode de reconstruction 3D haute précision pour les objets colorés qui corrige la aberration chromatique latérale et fusionne les données de phase des canaux RVB par estimation à variance minimale, permettant d'obtenir des résultats supérieurs sans matériel supplémentaire ni contraintes d'acquisition.

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

SUBTA: A Framework for Supported User-Guided Bimanual Teleoperation in Structured Assembly

Ce papier présente SUBTA, un cadre de téléopération bimanuelle assistée qui combine l'estimation d'intentions, la planification de tâches par graphe de scène et des aides au mouvement contextuelles pour améliorer significativement la précision et l'expérience utilisateur lors d'assemblages structurés.

Xiao Liu, Prakash Baskaran, Songpo Li, Simon Manschitz, Wei Ma, Dirk Ruiken, Soshi Iba2026-03-12💻 cs

Learning to Wander: Improving the Global Image Geolocation Ability of LMMs via Actionable Reasoning

Ce papier présente WanderBench, le premier benchmark mondial de géolocalisation basé sur des panoramas navigables, et GeoAoT, un cadre d'inférence qui améliore la précision des modèles multimodaux en générant des plans d'action concrets plutôt que de simples chaînes de raisonnement textuelles.

Yushuo Zheng, Huiyu Duan, Zicheng Zhang, Xiaohong Liu, Xiongkuo Min2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Le système MoXaRt introduit une architecture en cascade pour les réalités étendues (XR) qui combine des indices audio et visuels afin de séparer en temps réel jusqu'à cinq sources sonores concurrentes, améliorant ainsi significativement l'intelligibilité de la parole et réduisant la charge cognitive des utilisateurs.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

DepthCache: Depth-Guided Training-Free Visual Token Merging for Vision-Language-Action Model Inference

DepthCache est un cadre d'inférence sans entraînement qui accélère les modèles Vision-Language-Action en fusionnant de manière adaptative les tokens visuels guidés par la profondeur et la dynamique temporelle, réduisant ainsi la latence tout en préservant la précision des tâches robotiques.

Yuquan Li, Lianjie Ma, Han Ding, Lijun Zhu2026-03-12💻 cs

Fighting Hallucinations with Counterfactuals: Diffusion-Guided Perturbations for LVLM Hallucination Suppression

Le papier présente CIPHER, une méthode sans entraînement qui supprime les hallucinations visuelles des modèles de langage-vision en projetant leurs états cachés hors d'un sous-espace caractéristique identifié grâce à un jeu de données de contre-factuels visuels.

Hamidreza Dastmalchi, Aijun An, Ali Cheraghian, Hamed Barzamini2026-03-12💻 cs

From Verification to Herding: Exploiting Software's Sparsity of Influence

Cet article propose un changement de paradigme de la vérification logicielle vers l'« herding » (pilotage), exploitant la « sparsité de l'influence » via un nouvel algorithme stochastique nommé EZR pour atteindre des objectifs complexes avec un nombre minimal de tests.

Tim Menzies, Kishan Kumar Ganguly2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

Ce papier présente StructDamage, un ensemble de données unifié et à grande échelle comprenant environ 78 093 images de neuf types de surfaces, conçu pour améliorer la robustesse et la généralisation des modèles d'apprentissage profond dans la détection automatisée des fissures et défauts structuraux.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Cet article propose un réseau neuronal auto-supervisé spatial pour l'apprentissage de pics en imagerie par spectrométrie de masse, ainsi qu'une nouvelle procédure d'évaluation basée sur des masques de segmentation experte, démontrant une performance supérieure aux méthodes actuelles sur plusieurs jeux de données publics.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Ce papier présente IMTBench, un nouveau benchmark multi-scénarios et cross-modaux composé de 2 500 échantillons réels, conçu pour évaluer de manière holistique la qualité de la traduction, la préservation du contexte visuel et l'alignement cross-modal dans la traduction de texte en image (IIMT).

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

Efficiency vs Demand in AI Electricity: Implications for Post-AGI Scaling

En intégrant le secteur du calcul IA dans le modèle GCAM, cette étude démontre que la demande future d'électricité pour l'IA dépendra de l'équilibre entre les trajectoires d'efficacité et la croissance des revenus, révélant que les mécanismes de prix seuls sont insuffisants pour modérer la demande dans un scénario post-AGI.

Doyi Kim, Jiseok Ahn, Haewon McJeon, Changick Kim2026-03-12💻 cs

← Précédent Suivant →