Taming Modality Entanglement in Continual Audio-Visual Segmentation

Cet article propose un nouveau cadre de rééchantillonnage par collision (CMR) pour la segmentation audio-vidéo continue, qui résout les problèmes de dérive sémantique et de confusion entre classes co-occurrentes en sélectionnant des échantillons multimodaux cohérents et en augmentant la fréquence de réentraînement des classes confusables.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

HumanHalo - Safe and Efficient 3D Navigation Among Humans via Minimally Conservative MPC

Ce papier présente HumanMPC, un cadre de commande prédictive (MPC) innovant qui garantit une navigation 3D sûre et efficace pour les micro-drones parmi des humains en combinant des modèles de mouvement réalistes basés sur les données avec une formulation de sécurité par faisabilité de contrôle minimisant le conservatisme.

Simon Schaefer, Helen Oleynikova, Sandra Hirche, Stefan Leutenegger2026-03-10💻 cs

Khelte Khelte Shikhi: A Proposed HCI Framework for Gamified Interactive Learning with Minecraft in Bangladeshi Education Systems

Cet article propose un cadre HCI conceptuel pour intégrer Minecraft dans le système éducatif bangladais en adaptant l'infrastructure à trois niveaux de ressources (du cloud au mode hors ligne) et en localisant le contenu culturellement, afin de rendre l'apprentissage par le jeu accessible malgré les contraintes énergétiques et matérielles sévères.

Mohd Ruhul Ameen, Akif Islam, Momen Khandokar Ope2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Le papier présente Dream4Drive, un cadre de génération de données synthétiques qui améliore les performances des modèles de perception pour la conduite autonome en produisant des cas limites multi-vues photoréalistes, tout en introduisant l'ensemble de données 3D DriveObj3D pour faciliter la recherche future.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Cet article présente une méthode de comptage automatisé des ravageurs dans des pièges à eau utilisant un bras robotique actif pour réduire les occlusions, où un système de contrôle en boucle fermée adaptatif optimise les motifs de brassage et la vitesse pour améliorer la précision et réduire le temps d'exécution par rapport aux méthodes statiques.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Ce papier présente CountFormer, un cadre de comptage d'objets sans exemple qui remplace l'encodeur d'image par le modèle fondation auto-supervisé DINOv2 pour améliorer la cohérence structurelle et réduire les erreurs de surcomptage liées aux répétitions visuelles, tout en obtenant des performances compétitives sur le jeu de données FSC-147.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

Le papier présente LagMemo, un système de navigation robotique qui utilise une mémoire de splatting gaussien 3D enrichie par le langage pour permettre une localisation et une navigation multi-objectifs ouvertes et multi-modales, surpassant les méthodes actuelles grâce à une évaluation rigoureuse sur le nouveau benchmark GOAT-Core.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

MobiDock: Design and Control of A Modular Self Reconfigurable Bimanual Mobile Manipulator via Robotic Docking

Cette étude présente MobiDock, un système robotique mobile bimanuel modulaire et auto-reconfigurable qui, grâce à une stratégie d'arrimage autonome et un mécanisme de verrouillage innovant, transforme la coordination multi-robots en la gestion d'un système unique, améliorant ainsi la stabilité dynamique, la précision et l'efficacité opérationnelle.

Xuan-Thuan Nguyen, Khac Nam Nguyen, Ngoc Duy Tran, Thi Thoa Mac, Anh Nguyen, Hoang Hiep Ly, Tung D. Ta2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Cet article propose une nouvelle méthode de détection des images générées par l'IA, appelée « reconstruction par rebond de diffusion », qui analyse la manière dont une image se réorganise sous l'effet d'une perturbation contrôlée par un modèle de diffusion, atteignant une précision exceptionnelle (AUROC de 0,993) pour distinguer les photographies authentiques des synthèses artificielles.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Cet article présente MUGSQA, une nouvelle méthode d'évaluation de la qualité basée sur l'incertitude multiple, accompagnée d'un jeu de données et de benchmarks conçus pour mesurer la robustesse des méthodes de Gaussian Splatting et la performance des métriques d'évaluation existantes face aux variations des données d'entrée.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

Le papier présente CountOCC, un cadre de comptage amodal qui surpasse les méthodes actuelles en reconstruisant les caractéristiques des objets occlus grâce à une guidance multimodale hiérarchique et une nouvelle tâche d'équivalence visuelle, validé par des performances record sur des jeux de données augmentés avec occlusion.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-Making

Cet article présente LAMP, un cadre d'apprentissage par renforcement multi-agent enrichi par le langage qui intègre un pipeline de réflexion, d'expression et de décision pour optimiser les stratégies économiques en fusionnant données chiffrées et analyse sémantique, surpassant ainsi les méthodes existantes en termes de rentabilité, de robustesse et d'interprétabilité.

Heyang Ma, Qirui Mi, Qipeng Yang, Zijun Fan, Bo Li, Haifeng Zhang2026-03-10💻 cs