cs articles | Gist.Science

MO-Playground: Massively Parallelized Multi-Objective Reinforcement Learning for Robotics

Ce papier présente MORLAX, un algorithme d'apprentissage par renforcement multi-objectif natif pour GPU, et MO-Playground, un environnement d'entraînement accéléré par GPU, qui permettent ensemble d'approximer des ensembles de Pareto pour des problèmes robotiques complexes avec une accélération de 25 à 270 fois par rapport aux approches CPU traditionnelles.

Neil Janwani, Ellen Novoseller, Vernon J. Lawhern, Maegan Tucker2026-03-11💻 cs

RAE-NWM: Navigation World Model in Dense Visual Representation Space

Le papier propose RAE-NWM, un modèle de monde de navigation qui opère dans un espace de représentation visuelle dense (DINOv2) plutôt que dans un espace latent compressé, afin de préserver les informations structurelles fines et d'améliorer la précision du contrôle et de la planification grâce à l'utilisation d'un transformateur de diffusion conditionnel.

Mingkun Zhang, Wangtian Shen, Fan Zhang, Haijian Qin, Zihao Pei, Ziyang Meng2026-03-11💻 cs

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Ce papier propose le module Geometric Semantic Decoupling (GSD), une méthode sans paramètres qui améliore la généralisation des détecteurs d'images générées par IA en éliminant les raccourcis sémantiques pour forcer le modèle à se concentrer sur des preuves de falsification invariantes.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Ce papier présente Poly-DETR, un transformateur de détection de polygones qui reformule la segmentation d'instances comme une régression de sommets via une représentation polaire pour résoudre le compromis entre haute résolution et inférence légère, surpassant les méthodes existantes en précision et en efficacité mémoire.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Cet article présente \tool{}, un cadre automatisé de « programmation orientée raisonnement » qui contourne les mécanismes de sécurité des modèles vision-langage en orchestrant des entrées visuelles bénignes et orthogonales pour générer une logique malveillante uniquement lors de l'étape de raisonnement tardif.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Evoking User Memory: Personalizing LLM via Recollection-Familiarity Adaptive Retrieval

Le papier présente RF-Mem, un système de récupération de mémoire adaptatif qui imite le double processus cognitif humain de familiarité et de récollection pour personnaliser efficacement les grands modèles de langage sans surcharge computationnelle.

Yingyi Zhang, Junyi Li, Wenlin Zhang, Penyue Jia, Xianneng Li, Yichao Wang, Derong Xu, Yi Wen, Huifeng Guo, Yong Liu, Xiangyu Zhao2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Cet article propose le cadre « Platooning as a Service » (PlaaS), modélisé comme un jeu de Stackelberg, pour optimiser la tarification et les contrats de services de pelotonnage de véhicules connectés et autonomes afin de réduire les émissions de carbone et d'améliorer l'efficacité du transport, tout en analysant l'impact des subventions gouvernementales et des paramètres opérationnels sur la durabilité.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

Ce papier propose DiP, un cadre novateur d'apprentissage de représentations pour les graphes multimodaux qui utilise des nœuds pseudo-spécifiques et des voies d'information dynamiques pour réaliser une propagation de messages adaptative, expressive et parcimonieuse avec une complexité linéaire, surpassant ainsi les méthodes existantes sur diverses tâches.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Cet article propose un cadre d'apprentissage à grande échelle pour la navigation vision-langage, tirant parti de vidéos web et de représentations géométriques implicites extraites directement des images RGB pour surmonter les limites des simulateurs et atteindre des performances de pointe avec une généralisation zéro-shot.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

From Perception to Cognition: How Latency Affects Interaction Fluency and Social Presence in VR Conferencing

Cette étude examine l'impact de la latence sur la fluidité d'interaction et la présence sociale dans les conférences en réalité virtuelle, en comparant ces dimensions perceptives et cognitives à celles des visioconférences traditionnelles afin d'optimiser les systèmes immersifs.

Jiarun Song, Ninghao Wan, FuZheng Yang, Weisi Lin2026-03-11💻 cs

On the Online Weighted Non-Crossing Matching Problem

Cet article étudie le problème de couplage non croisé pondéré en ligne dans le plan euclidien, démontrant l'impossibilité d'un rapport de compétitivité non trivial pour les algorithmes déterministes tout en établissant l'existence d'un rapport constant grâce à la randomisation, et en fournissant des bornes pour diverses variantes ainsi qu'une amélioration de la complexité en conseils nécessaire pour l'optimalité.

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis Pankratov2026-03-11💻 cs

TPIFM: A Task-Aware Model for Evaluating Perceptual Interaction Fluency in Remote AR Collaboration

Ce papier propose le modèle TPIFM, une approche axée sur la tâche pour évaluer la fluidité d'interaction perceptive dans la collaboration AR à distance en tenant compte des caractéristiques intrinsèques des tâches et des contraintes réseau.

Jiarun Song, Ninghao Wan, Fuzheng Yang, Weisi Lin2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

ForgeDreamer est un nouveau cadre de génération textuelle vers 3D conçu pour les applications industrielles qui surmonte les limites des méthodes actuelles grâce à un mécanisme d'ensemble LoRA multi-experts pour une généralisation inter-catégories et une approche d'amélioration géométrique par hypergraphe croisé pour assurer une cohérence structurelle de précision.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

L'article présente « FungiSync », une expérience de réalité mixte collaborative qui traduit l'interdépendance des réseaux mycorhiziens en une ritualisation somatique où le toucher physique entre les participants fait fusionner leurs perceptions numériques distinctes, invitant ainsi à une épistémologie fongique fondée sur la symbiose et la relationnalité.

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu Lin2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Cet article propose de nouvelles stratégies d'entraînement et des pertes pour accélérer l'apprentissage du splatting gaussien 3D en raccourcissant les listes de gaussiennes nécessaires au rendu, grâce à un rétrécissement régulier des échelles et une contrainte d'entropie, tout en intégrant un planificateur de résolution progressive pour améliorer l'efficacité sans sacrifier la qualité.

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Ce papier présente SVOR, un cadre robuste pour la suppression d'objets vidéo qui surmonte les défis du monde réel tels que les ombres et les masques défectueux grâce à trois innovations clés : MUSE, DA-Seg et un entraînement en deux étapes, atteignant ainsi des résultats state-of-the-art.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

Learning Convex Decomposition via Feature Fields

Cet article propose une nouvelle approche d'apprentissage de champs de caractéristiques pour réaliser la première décomposition convexe en avant dans un monde ouvert, permettant de décomposer efficacement des formes 3D en corps convexes pour des applications telles que la détection de collisions.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas Sharp2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Le papier présente CogBlender, un cadre innovant permettant une intervention continue et multidimensionnelle des propriétés cognitives (telles que la valence, l'éveil, la dominance et la mémorabilité) lors de la génération d'images à partir de texte, en reliant l'espace cognitif au manifold sémantique via des ancres cognitives et un champ de vitesse interpolé.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Ce papier présente MDTrack, un cadre novateur pour le suivi d'objets multimodaux qui améliore les performances grâce à une fusion adaptative par experts spécialisés et une propagation temporelle découplée via des modèles d'espace d'état, surpassant ainsi les méthodes existantes sur plusieurs benchmarks.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Le papier présente ToolRosetta, un cadre unifié qui automatise la conversion de dépôts de code open-source en outils MCP standardisés pour permettre aux agents d'IA d'exécuter des tâches complexes avec une intervention humaine minimale, tout en intégrant une couche de sécurité et en surpassant les performances des modèles commerciaux.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs

← Précédent Suivant →