MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Le système MoXaRt introduit une architecture en cascade pour les réalités étendues (XR) qui combine des indices audio et visuels afin de séparer en temps réel jusqu'à cinq sources sonores concurrentes, améliorant ainsi significativement l'intelligibilité de la parole et réduisant la charge cognitive des utilisateurs.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

Ce papier présente StructDamage, un ensemble de données unifié et à grande échelle comprenant environ 78 093 images de neuf types de surfaces, conçu pour améliorer la robustesse et la généralisation des modèles d'apprentissage profond dans la détection automatisée des fissures et défauts structuraux.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Cet article propose un réseau neuronal auto-supervisé spatial pour l'apprentissage de pics en imagerie par spectrométrie de masse, ainsi qu'une nouvelle procédure d'évaluation basée sur des masques de segmentation experte, démontrant une performance supérieure aux méthodes actuelles sur plusieurs jeux de données publics.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Ce papier présente IMTBench, un nouveau benchmark multi-scénarios et cross-modaux composé de 2 500 échantillons réels, conçu pour évaluer de manière holistique la qualité de la traduction, la préservation du contexte visuel et l'alignement cross-modal dans la traduction de texte en image (IIMT).

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Cet article propose une nouvelle méthode de défloutage d'images ultra-haute définition (UHD) basée sur un flot autorégressif avec contrainte mal conditionnée, qui décompose la restauration en un processus progressif de raffinement grossier à fin et utilise l'appariement de flux pour générer des détails fins tout en garantissant une stabilité numérique et une efficacité d'inférence.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Cet article propose un cadre de désentanglement sémantique guidé par la vision qui, en alignant les priors visuels et en utilisant un module de fusion hybride au sein d'un transformateur de diffusion, permet une génération d'images médicales hautement contrôlable et de haute qualité pour surmonter les limites des modèles texte-à-image actuels.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

Le papier propose STEPH, une méthode efficace de fusion de modèles via des hyperréseaux et un mélange parcimonieux de vecteurs de tâches, qui améliore la prédiction du pronostic des cancers sur des images de lames entières en transférant des connaissances généralisables entre 13 types de cancers sans nécessiter d'entraînement conjoint à grande échelle.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

BinWalker: Development and Field Evaluation of a Quadruped Manipulator Platform for Sustainable Litter Collection

Cet article présente le BinWalker, une plateforme robotique quadrupède équipée d'un bras manipulateur et d'un conteneur, conçue pour détecter, saisir et collecter automatiquement les déchets dans des environnements extérieurs difficiles d'accès, offrant ainsi une solution prometteuse pour automatiser le nettoyage des espaces publics.

Giulio Turrisi, Angelo Bratta, Giovanni Minelli, Gabriel Fischer Abati, Amir H. Rad, João Carlos Virgolino Soares, Claudio Semini2026-03-12💻 cs

An Event-Driven E-Skin System with Dynamic Binary Scanning and real time SNN Classification

Cet article présente un système d'électronique cutanée (e-skin) entièrement intégré et piloté par les événements, combinant une stratégie de balayage binaire dynamique pour une acquisition de données ultra-économe et un réseau de neurones à impulsions (SNN) implémenté sur FPGA, permettant une reconnaissance de chiffres manuscrits en temps réel avec une grande efficacité énergétique et une précision de 92,11 %.

Gaishan Li, Zhengnan Fu, Anubhab Tripathi, Junyi Yang, Arindam Basu2026-03-12💻 cs

In-Memory ADC-Based Nonlinear Activation Quantization for Efficient In-Memory Computing

Ce papier présente la quantification K-moyennes à suppression de frontières (BS-KMQ), une méthode innovante qui atténue les biais d'activation dans le calcul en mémoire pour réduire les exigences de résolution des convertisseurs analogique-numérique, tout en améliorant significativement la précision, la surface et l'efficacité énergétique des réseaux de neurones profonds.

Shuai Dong, Junyi Yang, Biyan Zhou, Hongyang Shang, Gourav Datta, Arindam Basu2026-03-12💻 cs