ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

L'article présente ARSGaussian, une méthode innovante de synthèse de vues nouvelles pour la télédétection aérienne qui intègre des nuages de points LiDAR et des pertes de régularisation géométrique pour éliminer les artefacts visuels et améliorer la précision géométrique, accompagnée de la publication du nouveau jeu de données open-source AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen Wang2026-03-11💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Ce papier présente CuriousBot, un système de robotique mobile qui utilise un graphe d'objets relationnels 3D pour surmonter les limites des méthodes actuelles en permettant une exploration interactive et généralisable au-delà des scènes de table, surpassant ainsi les approches basées uniquement sur les modèles vision-langage.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu Li2026-03-11🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Ce papier présente les iMarkers, des marqueurs de fiduciation invisibles pour l'œil humain mais détectables par les robots, conçus pour résoudre le problème esthétique des marqueurs traditionnels tout en offrant une grande flexibilité de production et une détection robuste dans divers scénarios robotiques.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger Voos2026-03-11💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Cette enquête propose une revue structurée de plus de 200 articles sur la généralisation du Wi-Fi sensing, en classant les techniques de robustesse, en résumant les jeux de données publics et en présentant la plateforme Sensing Dataset Platform (SDP) pour guider les recherches futures.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao Han2026-03-11💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Cet article présente une nouvelle approche semi-supervisée pour la segmentation d'images biomédicales, qui combine un cadre d'entraînement collaboratif enseignant-élève avec des modèles de diffusion pour générer des masques de segmentation informatifs et améliorer les performances dans des scénarios où les données annotées sont limitées.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio Falchi2026-03-11💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Cet article présente BR-Gen, un nouveau jeu de données à grande échelle de 150 000 images forgées localement, et NFA-ViT, un modèle de vision par transformer guidé par le bruit qui amplifie les traces de falsification pour améliorer la détection des contrefaçons générées par l'IA dans des scènes complexes.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai Sun2026-03-11💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Cet article présente SpikeSMOKE, une architecture de réseaux de neurones à impulsions (SNN) intégrant un mécanisme de codage à porte croisée multi-échelle (CSGC) et des blocs résiduels légers pour réaliser une détection d'objets 3D monoculaire à faible consommation énergétique avec des performances améliorées sur les jeux de données KITTI, NuScenes-mini et CIFAR.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang2026-03-11💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Ce papier présente FieldLVLM, un cadre novateur qui améliore la compréhension des modèles vision-langage de grande taille face aux données de champs physiques en combinant une stratégie de génération linguistique axée sur les caractéristiques physiques et un ajustement de modèle multimodal compressé, surpassant ainsi les méthodes existantes sur des benchmarks scientifiques.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang Zhang2026-03-11💻 cs

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection

Cet article présente MGCR-Net, un réseau de reconstruction vision-langage conditionné par des graphes multimodaux qui exploite des modèles de langage large (MLLM) et des mécanismes d'attention graphique pour améliorer la détection de changements dans les images de télédétection grâce à une interaction sémantique fine entre les données visuelles et textuelles.

Chengming Wang, Guodong Fan, Jinjiang Li + 2 more2026-03-11⚡ eess

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

L'article propose SFDA-PFT, une méthode d'adaptation de domaine sans source légère qui utilise une translation de caractéristiques personnalisée dans l'espace latent pour améliorer la reconnaissance des expressions faciales à partir de données cibles neutres uniquement, sans nécessiter de données sources ni de synthèse d'images.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Ce papier présente EgoCross, un nouveau benchmark conçu pour évaluer la capacité de généralisation des modèles de langage multimodaux au-delà des activités quotidiennes en les confrontant à des domaines complexes et variés tels que la chirurgie, l'industrie, les sports extrêmes et la vision animale.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

L'article présente CoRe-GS, un cadre de reconstruction 3D par splatting gaussien qui optimise de manière sélective et efficace uniquement les objets d'intérêt spécifiques, réduisant ainsi considérablement le temps de calcul tout en améliorant la qualité de la reconstruction pour les applications robotiques en temps réel.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel Roth2026-03-11💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Ce papier présente VocSegMRI, un cadre d'apprentissage multimodal qui intègre des données vidéo, audio et phonologiques via une fusion par attention croisée et un apprentissage contrastif pour atteindre une segmentation précise et robuste des voies vocales en IRM temps réel, surpassant les méthodes existantes avec un score Dice de 0,95.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro2026-03-11💻 cs