Towards Instance Segmentation with Polygon Detection Transformers

Ce papier présente Poly-DETR, un transformateur de détection de polygones qui reformule la segmentation d'instances comme une régression de sommets via une représentation polaire pour résoudre le compromis entre haute résolution et inférence légère, surpassant les méthodes existantes en précision et en efficacité mémoire.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Reasoning-Oriented Programming: Chaining Semantic Gadgets to Jailbreak Large Vision Language Models

Cet article présente \tool{}, un cadre automatisé de « programmation orientée raisonnement » qui contourne les mécanismes de sécurité des modèles vision-langage en orchestrant des entrées visuelles bénignes et orthogonales pour générer une logique malveillante uniquement lors de l'étape de raisonnement tardif.

Quanchen Zou, Moyang Chen, Zonghao Ying, Wenzhuo Xu, Yisong Xiao, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang2026-03-11💻 cs

Platooning as a Service (PlaaS): A Sustainable Transportation Framework for Connected and Autonomous Vehicles

Cet article propose le cadre « Platooning as a Service » (PlaaS), modélisé comme un jeu de Stackelberg, pour optimiser la tarification et les contrats de services de pelotonnage de véhicules connectés et autonomes afin de réduire les émissions de carbone et d'améliorer l'efficacité du transport, tout en analysant l'impact des subventions gouvernementales et des paramètres opérationnels sur la durabilité.

Bhosale Akshay Tanaji, Sayak Roychowdhury, Anand Abrahamb2026-03-11💻 cs

Multimodal Graph Representation Learning with Dynamic Information Pathways

Ce papier propose DiP, un cadre novateur d'apprentissage de représentations pour les graphes multimodaux qui utilise des nœuds pseudo-spécifiques et des voies d'information dynamiques pour réaliser une propagation de messages adaptative, expressive et parcimonieuse avec une complexité linéaire, surpassant ainsi les méthodes existantes sur diverses tâches.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Cet article propose un cadre d'apprentissage à grande échelle pour la navigation vision-langage, tirant parti de vidéos web et de représentations géométriques implicites extraites directement des images RGB pour surmonter les limites des simulateurs et atteindre des performances de pointe avec une généralisation zéro-shot.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

On the Online Weighted Non-Crossing Matching Problem

Cet article étudie le problème de couplage non croisé pondéré en ligne dans le plan euclidien, démontrant l'impossibilité d'un rapport de compétitivité non trivial pour les algorithmes déterministes tout en établissant l'existence d'un rapport constant grâce à la randomisation, et en fournissant des bornes pour diverses variantes ainsi qu'une amélioration de la complexité en conseils nécessaire pour l'optimalité.

Joan Boyar, Shahin Kamali, Kim S. Larsen, Ali Fata Lavasani, Yaqiao Li, Denis Pankratov2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

ForgeDreamer est un nouveau cadre de génération textuelle vers 3D conçu pour les applications industrielles qui surmonte les limites des méthodes actuelles grâce à un mécanisme d'ensemble LoRA multi-experts pour une généralisation inter-catégories et une approche d'amélioration géométrique par hypergraphe croisé pour assurer une cohérence structurelle de précision.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

Entangling Like Mycorrhizae: Mixing Realities Through Touch in "FungiSync"

L'article présente « FungiSync », une expérience de réalité mixte collaborative qui traduit l'interdépendance des réseaux mycorhiziens en une ritualisation somatique où le toucher physique entre les participants fait fusionner leurs perceptions numériques distinctes, invitant ainsi à une épistémologie fongique fondée sur la symbiose et la relationnalité.

Botao Amber Hu, Danlin Huang, Yilan Elan Tao, Xiaobo Aaron Hu, Rem RunGu Lin2026-03-11💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Cet article propose de nouvelles stratégies d'entraînement et des pertes pour accélérer l'apprentissage du splatting gaussien 3D en raccourcissant les listes de gaussiennes nécessaires au rendu, grâce à un rétrécissement régulier des échelles et une contrainte d'entropie, tout en intégrant un planificateur de résolution progressive pour améliorer l'efficacité sans sacrifier la qualité.

Jiaqi Liu, Zhizhong Han2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

Le papier présente CogBlender, un cadre innovant permettant une intervention continue et multidimensionnelle des propriétés cognitives (telles que la valence, l'éveil, la dominance et la mémorabilité) lors de la génération d'images à partir de texte, en reliant l'espace cognitif au manifold sémantique via des ancres cognitives et un champ de vitesse interpolé.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization

Le papier présente ToolRosetta, un cadre unifié qui automatise la conversion de dépôts de code open-source en outils MCP standardisés pour permettre aux agents d'IA d'exécuter des tâches complexes avec une intervention humaine minimale, tout en intégrant une couche de sécurité et en surpassant les performances des modèles commerciaux.

Shimin Di, Xujie Yuan, Hanghui Guo, Chaoqian Ouyang, Zhangze Chen, Ling Yue, Libin Zheng, Jia Zhu, Shaowu Pan, Jian Yin, Min-Ling Zhang, Yong Rui2026-03-11💻 cs

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Le papier présente SPR, un cadre vision-langage-action progressif qui améliore la robustesse de la manipulation robotique en ancrant les instructions dans des sous-objectifs spatiaux et en permettant une récupération automatique des échecs via un cycle de rétroaction, surpassant ainsi les méthodes de référence sur les benchmarks LIBERO.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs