SignSparK: Efficient Multilingual Sign Language Production via Sparse Keyframe Learning

Le papier présente SignSparK, un cadre d'apprentissage multilingue novateur qui utilise des repères temporels clés et un modèle de flux conditionnel pour générer des avatars de langue des signes 3D fluides et photoréalistes, surmontant ainsi les compromis entre précision linguistique et naturel du mouvement.

Jianhe Low, Alexandre Symeonidis-Herzig, Maksym Ivashechkin, Ozge Mercanoglu Sincan, Richard Bowden2026-03-12💻 cs

DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control

Le papier présente DiT4DiT, un modèle end-to-end couplant des transformateurs de diffusion vidéo et d'action pour améliorer l'apprentissage des politiques robotiques en exploitant la structure spatio-temporelle et la physique implicite des vidéos, ce qui permet d'atteindre des performances de pointe avec une efficacité d'échantillonnage bien supérieure.

Teli Ma, Jia Zheng, Zifan Wang, Chuili Jiang, Andy Cui, Junwei Liang, Shuo Yang2026-03-12💻 cs

Machinagogy: Experiments in Staging Teaching Dramas with LLMs

Ce papier présente « Machinagogy », un système de tutorat IA fondé sur la reconnaissance hégélienne et la psychodynamique freudienne, dont la conception, l'évaluation et la documentation ont été réalisées en collaboration avec une IA selon une méthodologie réflexive appelée « scholarship de vibe », démontrant que des prompts enrichis par la reconnaissance améliorent significativement et universellement les performances des tuteurs.

Liam Magee2026-03-12💻 cs

LCAMV: High-Accuracy 3D Reconstruction of Color-Varying Objects Using LCA Correction and Minimum-Variance Fusion in Structured Light

Ce papier présente LCAMV, une méthode de reconstruction 3D haute précision pour les objets colorés qui corrige la aberration chromatique latérale et fusionne les données de phase des canaux RVB par estimation à variance minimale, permettant d'obtenir des résultats supérieurs sans matériel supplémentaire ni contraintes d'acquisition.

Wonbeen Oh, Jae-Sang Hyun2026-03-12💻 cs

SUBTA: A Framework for Supported User-Guided Bimanual Teleoperation in Structured Assembly

Ce papier présente SUBTA, un cadre de téléopération bimanuelle assistée qui combine l'estimation d'intentions, la planification de tâches par graphe de scène et des aides au mouvement contextuelles pour améliorer significativement la précision et l'expérience utilisateur lors d'assemblages structurés.

Xiao Liu, Prakash Baskaran, Songpo Li, Simon Manschitz, Wei Ma, Dirk Ruiken, Soshi Iba2026-03-12💻 cs

MoXaRt: Audio-Visual Object-Guided Sound Interaction for XR

Le système MoXaRt introduit une architecture en cascade pour les réalités étendues (XR) qui combine des indices audio et visuels afin de séparer en temps réel jusqu'à cinq sources sonores concurrentes, améliorant ainsi significativement l'intelligibilité de la parole et réduisant la charge cognitive des utilisateurs.

Tianyu Xu, Sieun Kim, Qianhui Zheng, Ruoyu Xu, Tejasvi Ravi, Anuva Kulkarni, Katrina Passarella-Ward, Junyi Zhu, Adarsh Kowdle2026-03-12💻 cs

StructDamage:A Large Scale Unified Crack and Surface Defect Dataset for Robust Structural Damage Detection

Ce papier présente StructDamage, un ensemble de données unifié et à grande échelle comprenant environ 78 093 images de neuf types de surfaces, conçu pour améliorer la robustesse et la généralisation des modèles d'apprentissage profond dans la détection automatisée des fissures et défauts structuraux.

Misbah Ijaz, Saif Ur Rehman Khan, Abd Ur Rehman, Sebastian Vollmer, Andreas Dengel, Muhammad Nabeel Asim2026-03-12💻 cs

Spatial self-supervised Peak Learning and correlation-based Evaluation of peak picking in Mass Spectrometry Imaging

Cet article propose un réseau neuronal auto-supervisé spatial pour l'apprentissage de pics en imagerie par spectrométrie de masse, ainsi qu'une nouvelle procédure d'évaluation basée sur des masques de segmentation experte, démontrant une performance supérieure aux méthodes actuelles sur plusieurs jeux de données publics.

Philipp Weigand, Nikolas Ebert, Shad A. Mohammed, Denis Abu Sammour, Carsten Hopf, Oliver Wasenmüller2026-03-12💻 cs

IMTBench: A Multi-Scenario Cross-Modal Collaborative Evaluation Benchmark for In-Image Machine Translation

Ce papier présente IMTBench, un nouveau benchmark multi-scénarios et cross-modaux composé de 2 500 échantillons réels, conçu pour évaluer de manière holistique la qualité de la traduction, la préservation du contexte visuel et l'alignement cross-modal dans la traduction de texte en image (IIMT).

Jiahao Lyu, Pei Fu, Zhenhang Li, Weichao Zeng, Shaojie Zhan, Jiahui Yang, Can Ma, Yu Zhou, Zhenbo Luo, Jian Luan2026-03-12💻 cs

UHD Image Deblurring via Autoregressive Flow with Ill-conditioned Constraints

Cet article propose une nouvelle méthode de défloutage d'images ultra-haute définition (UHD) basée sur un flot autorégressif avec contrainte mal conditionnée, qui décompose la restauration en un processus progressif de raffinement grossier à fin et utilise l'appariement de flux pour générer des détails fins tout en garantissant une stabilité numérique et une efficacité d'inférence.

Yucheng Xin, Dawei Zhao, Xiang Chen, Chen Wu, Pu Wang, Dianjie Lu, Guijuan Zhang, Xiuyi Jia, Zhuoran Zheng2026-03-12💻 cs

Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement

Cet article propose un cadre de désentanglement sémantique guidé par la vision qui, en alignant les priors visuels et en utilisant un module de fusion hybride au sein d'un transformateur de diffusion, permet une génération d'images médicales hautement contrôlable et de haute qualité pour surmonter les limites des modèles texte-à-image actuels.

Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane2026-03-12💻 cs

Sparse Task Vector Mixup with Hypernetworks for Efficient Knowledge Transfer in Whole-Slide Image Prognosis

Le papier propose STEPH, une méthode efficace de fusion de modèles via des hyperréseaux et un mélange parcimonieux de vecteurs de tâches, qui améliore la prédiction du pronostic des cancers sur des images de lames entières en transférant des connaissances généralisables entre 13 types de cancers sans nécessiter d'entraînement conjoint à grande échelle.

Pei Liu, Xiangxiang Zeng, Tengfei Ma, Yucheng Xing, Xuanbai Ren, Yiping Liu2026-03-12💻 cs

BinWalker: Development and Field Evaluation of a Quadruped Manipulator Platform for Sustainable Litter Collection

Cet article présente le BinWalker, une plateforme robotique quadrupède équipée d'un bras manipulateur et d'un conteneur, conçue pour détecter, saisir et collecter automatiquement les déchets dans des environnements extérieurs difficiles d'accès, offrant ainsi une solution prometteuse pour automatiser le nettoyage des espaces publics.

Giulio Turrisi, Angelo Bratta, Giovanni Minelli, Gabriel Fischer Abati, Amir H. Rad, João Carlos Virgolino Soares, Claudio Semini2026-03-12💻 cs

An Event-Driven E-Skin System with Dynamic Binary Scanning and real time SNN Classification

Cet article présente un système d'électronique cutanée (e-skin) entièrement intégré et piloté par les événements, combinant une stratégie de balayage binaire dynamique pour une acquisition de données ultra-économe et un réseau de neurones à impulsions (SNN) implémenté sur FPGA, permettant une reconnaissance de chiffres manuscrits en temps réel avec une grande efficacité énergétique et une précision de 92,11 %.

Gaishan Li, Zhengnan Fu, Anubhab Tripathi, Junyi Yang, Arindam Basu2026-03-12💻 cs