Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Ce papier présente le CSLICS, un système de caméra automatisé et peu coûteux utilisant l'intelligence artificielle pour compter précisément les pontes de coraux, réduisant ainsi considérablement la charge de travail manuelle et facilitant l'upscaling des efforts de restauration des récifs coralliens.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Cet article propose une méthode non supervisée pour révéler les mécanismes d'encodage et de décodage des concepts dans les réseaux de vision profonds en identifiant des paires de directions latentes via un regroupement directionnel et des vecteurs de signal, permettant ainsi d'interpréter, de déboguer et d'intervenir sur le comportement des modèles.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Cette étude présente un pipeline d'apprentissage profond évolutif utilisant une approche U-Net en deux passes pour extraire le premier jeu de données national à accès libre des empreintes urbaines de la France métropolitaine entre 1925 et 1950 à partir des cartes historiques Scan Histo, permettant ainsi une analyse quantitative de l'étalement urbain avant les années 1970.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

Connectivity Maintenance and Recovery for Multi-Robot Motion Planning

Cet article présente un algorithme de planification de mouvement en temps réel nommé MPC-CLF-CBF, basé sur des courbes de Bézier, qui permet à des essaims de robots de maintenir ou de rétablir leur connectivité tout en naviguant efficacement dans des environnements encombrés, comme démontré par des simulations et une expérience physique avec huit quadrotors Crazyflie.

Yutong Wang, Lishuo Pan, Yichun Qu, Tengxiang Wang, Nora AyanianWed, 11 Ma💻 cs

LARA-Gen: Enabling Continuous Emotion Control for Music Generation Models via Latent Affective Representation Alignment

LARA-Gen est un cadre innovant qui permet un contrôle continu et fin des émotions dans la génération musicale en alignant les états internes du modèle sur une représentation affective latente, en découplant les attributs émotionnels du contenu textuel via un espace valence-arousal, et en offrant une évaluation objective grâce à un nouveau benchmark.

Jiahao Mei, Xuenan Xu, Zeyu Xie, Zihao Zheng, Ye Tao, Yue Ding, Mengyue WuWed, 11 Ma💻 cs

Asset-Centric Metric-Semantic Maps of Indoor Environments

Cet article propose une approche hybride utilisant un robot quadrupède pour générer des cartes métriques et sémantiques centrées sur les objets, offrant un compromis optimal entre la précision des détails individuels et le contexte global de la scène, ce qui améliore la compréhension et la planification des tâches par les grands modèles de langage (LLM) tout en surpassant les méthodes existantes en termes de précision et d'efficacité.

Christopher D. Hsu, Pratik ChaudhariWed, 11 Ma💻 cs

Revisiting Replanning from Scratch: Real-Time Incremental Planning with Fast Almost-Surely Asymptotically Optimal Planners

Cet article remet en question l'hypothèse selon laquelle la replanification réactive nécessite la mise à jour de plans existants, démontrant qu'il est plus efficace de résoudre le problème comme une série de problèmes indépendants grâce à des algorithmes de planification presque sûrement asymptotiquement optimaux (ASAO) tels que EIT* et AORRTC.

Mitchell E. C. Sabbadini, Andrew H. Liu, Joseph Ruan, Tyler S. Wilson, Zachary Kingston, Jonathan D. GammellWed, 11 Ma💻 cs

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Ce papier démontre qu'une sélection judicieuse d'un sous-ensemble de repères corporels, combinée à une imputation par splines, permet de reconnaître les signes isolés de la LIBRAS avec une précision égale ou supérieure aux méthodes de pointe tout en accélérant le traitement de plus de cinq fois par rapport à l'approche précédente.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

EgoMI: Learning Active Vision and Whole-Body Manipulation from Egocentric Human Demonstrations

L'article présente EgoMI, un cadre d'apprentissage par imitation qui comble le fossé d'incarnation entre humains et robots en capturant des trajectoires coordonnées des mains et de la tête active, permettant ainsi à des robots semi-humanoïdes d'acquérir des compétences de manipulation robustes grâce à une politique enrichie par la mémoire pour gérer les changements dynamiques de point de vue.

Justin Yu, Yide Shentu, Di Wu, Pieter Abbeel, Ken Goldberg, Philipp WuWed, 11 Ma💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Ce papier propose SPAN, une nouvelle méthode d'alignement spatial et de projection qui améliore la détection d'objets 3D monoculaire en imposant des contraintes géométriques globales et une cohérence entre les boîtes 3D et 2D, tout en utilisant une stratégie d'apprentissage hiérarchique pour assurer la stabilité de l'entraînement.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming YangWed, 11 Ma💻 cs

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Le papier propose V-Attack, une nouvelle méthode d'attaque adversariale pour les grands modèles vision-langage qui cible les caractéristiques de valeur (V) désengagées plutôt que les patchs entremêlés, permettant ainsi un contrôle sémantique local précis et une amélioration significative du taux de réussite des attaques.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin ChenWed, 11 Ma💻 cs

Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

Le papier présente AFRO, un cadre d'apprentissage auto-supervisé qui génère des représentations 3D dynamiques pour la robotique en modélisant les transitions d'état via un processus de diffusion, éliminant ainsi le besoin de reconstruction géométrique explicite et améliorant significativement les taux de réussite dans des tâches de manipulation réelles et simulées.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing XuWed, 11 Ma💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Ce papier propose AVGGT, une méthode d'accélération sans réentraînement pour les modèles VGGT et π3\pi^3 qui, en s'appuyant sur une analyse des rôles de l'attention globale, remplace les premières couches par une attention par image et subsample les suivantes, permettant ainsi des gains de vitesse allant jusqu'à 10 fois sur des séquences longues tout en préservant la précision.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu ZhangWed, 11 Ma💻 cs