cs.CV articles | Gist.Science

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

L'article présente ARSGaussian, une méthode innovante de synthèse de vues nouvelles pour la télédétection aérienne qui intègre des nuages de points LiDAR et des pertes de régularisation géométrique pour éliminer les artefacts visuels et améliorer la précision géométrique, accompagnée de la publication du nouveau jeu de données open-source AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen Wang2026-03-11💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Ce papier présente CuriousBot, un système de robotique mobile qui utilise un graphe d'objets relationnels 3D pour surmonter les limites des méthodes actuelles en permettant une exploration interactive et généralisable au-delà des scènes de table, surpassant ainsi les approches basées uniquement sur les modèles vision-langage.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu Li2026-03-11🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Ce papier présente les iMarkers, des marqueurs de fiduciation invisibles pour l'œil humain mais détectables par les robots, conçus pour résoudre le problème esthétique des marqueurs traditionnels tout en offrant une grande flexibilité de production et une détection robuste dans divers scénarios robotiques.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger Voos2026-03-11💻 cs

LAYOUTDREAMER: Physics-guided Layout for Text-to-3D Compositional Scene Generation

Le papier présente LayoutDreamer, un cadre innovant guidé par la physique et les graphes de scène qui utilise le 3D Gaussian Splatting pour générer des scènes 3D compositionnelles de haute qualité, physiquement plausibles et hautement contrôlables à partir de descriptions textuelles.

Yang Zhou, Zongjin He, Qixuan Li + 1 more2026-03-11🤖 cs.AI

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Cette enquête propose une revue structurée de plus de 200 articles sur la généralisation du Wi-Fi sensing, en classant les techniques de robustesse, en résumant les jeux de données publics et en présentant la plateforme Sensing Dataset Platform (SDP) pour guider les recherches futures.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao Han2026-03-11💻 cs

Recognition-Synergistic Scene Text Editing

Cet article présente RS-STE, une nouvelle approche unifiée pour l'édition de texte dans les images de scène qui exploite la synergie intrinsèque avec la reconnaissance de texte via un décodeur parallèle et un apprentissage auto-supervisé cyclique, atteignant ainsi des performances de pointe sans nécessiter de données appariées.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie Pei2026-03-11💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Cet article présente une nouvelle approche semi-supervisée pour la segmentation d'images biomédicales, qui combine un cadre d'entraînement collaboratif enseignant-élève avec des modèles de diffusion pour générer des masques de segmentation informatifs et améliorer les performances dans des scénarios où les données annotées sont limitées.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio Falchi2026-03-11💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Cet article présente BR-Gen, un nouveau jeu de données à grande échelle de 150 000 images forgées localement, et NFA-ViT, un modèle de vision par transformer guidé par le bruit qui amplifie les traces de falsification pour améliorer la détection des contrefaçons générées par l'IA dans des scènes complexes.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai Sun2026-03-11💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Ce papier présente M4-SAR, un ensemble de données et une référence normalisés à grande échelle pour la détection d'objets par fusion optique-SAR, accompagnés d'un nouveau cadre de détection E2E-OSDet qui démontrent des performances supérieures, notamment dans des environnements complexes.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei Luo2026-03-11💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

Ce papier propose MARRS, un cadre novateur utilisant des représentations continues et un auto-encodeur variationnel pour générer des réactions humaines coordonnées et détaillées, en surmontant les limites des approches vectorielles quantisées grâce à une fusion conditionnée par l'action et une modulation adaptative des unités corporelles.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong Liu2026-03-11💻 cs

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Cet article présente la première revue systématique de l'intégration des modèles de fondation dans la robotique de service mobile, en analysant comment ces technologies surmontent les défis techniques et éthiques pour permettre une exécution de tâches adaptative et sûre dans des environnements réels.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

Le papier présente EasyText, un cadre de rendu textuel multilingue basé sur un Transformateur de Diffusion (DiT) qui, grâce à des techniques de codage de position et à l'utilisation d'ensembles de données synthétiques massifs, permet une génération précise et contrôlée de texte dans n'importe quelle langue.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren Song2026-03-11💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Cet article présente SpikeSMOKE, une architecture de réseaux de neurones à impulsions (SNN) intégrant un mécanisme de codage à porte croisée multi-échelle (CSGC) et des blocs résiduels légers pour réaliser une détection d'objets 3D monoculaire à faible consommation énergétique avec des performances améliorées sur les jeux de données KITTI, NuScenes-mini et CIFAR.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen Huang2026-03-11💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Ce papier présente FieldLVLM, un cadre novateur qui améliore la compréhension des modèles vision-langage de grande taille face aux données de champs physiques en combinant une stratégie de génération linguistique axée sur les caractéristiques physiques et un ajustement de modèle multimodal compressé, surpassant ainsi les méthodes existantes sur des benchmarks scientifiques.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang Zhang2026-03-11💻 cs

MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection

Cet article présente MGCR-Net, un réseau de reconstruction vision-langage conditionné par des graphes multimodaux qui exploite des modèles de langage large (MLLM) et des mécanismes d'attention graphique pour améliorer la détection de changements dans les images de télédétection grâce à une interaction sémantique fine entre les données visuelles et textuelles.

Chengming Wang, Guodong Fan, Jinjiang Li + 2 more2026-03-11⚡ eess

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

L'article propose SFDA-PFT, une méthode d'adaptation de domaine sans source légère qui utilise une translation de caractéristiques personnalisée dans l'espace latent pour améliorer la reconnaissance des expressions faciales à partir de données cibles neutres uniquement, sans nécessiter de données sources ni de synthèse d'images.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Ce papier présente EgoCross, un nouveau benchmark conçu pour évaluer la capacité de généralisation des modèles de langage multimodaux au-delà des activités quotidiennes en les confrontant à des domaines complexes et variés tels que la chirurgie, l'industrie, les sports extrêmes et la vision animale.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling Wang2026-03-11🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Le papier présente YOPO, une méthode unifiée et minimaliste basée sur les transformers qui réalise l'estimation de pose 9D de catégorie pour plusieurs objets à partir d'une seule image RGB, atteignant des performances de pointe sans recourir à des données de profondeur ou à des modèles CAD.

Hakjin Lee, Junghoon Seo, Jaehoon Sim2026-03-11💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

L'article présente CoRe-GS, un cadre de reconstruction 3D par splatting gaussien qui optimise de manière sélective et efficace uniquement les objets d'intérêt spécifiques, réduisant ainsi considérablement le temps de calcul tout en améliorant la qualité de la reconstruction pour les applications robotiques en temps réel.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel Roth2026-03-11💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Ce papier présente VocSegMRI, un cadre d'apprentissage multimodal qui intègre des données vidéo, audio et phonologiques via une fusion par attention croisée et un apprentissage contrastif pour atteindre une segmentation précise et robuste des voies vocales en IRM temps réel, surpassant les méthodes existantes avec un score Dice de 0,95.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-Toro2026-03-11💻 cs

← Précédent Suivant →