OSUM-Pangu: An Open-Source Multidimension Speech Understanding Foundation Model Built upon OpenPangu on Ascend NPUs

L'article présente OSUM-Pangu, un modèle fondamental de compréhension de la parole open-source entièrement développé sur la pile logicielle et matérielle non-CUDA des NPU Ascend, qui atteint des performances comparables aux modèles basés sur GPU tout en favorisant l'évolution indépendante de l'intelligence multimodale.

Yujie Liao, Xuelong Geng, Hongfei Xue, Shuiyuan Wang, Lei Xie2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

Ce papier propose le DIPE (Distance Invariant Position Encoding), un mécanisme simple qui atténue le phénomène d'effacement visuel dans les modèles multimodaux à long contexte en neutralisant la pénalité de distance inter-modale inhérente au Multimodal RoPE, tout en préservant la structure locale intra-modale.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Exploring Indicators of Developers' Sentiment Perceptions in Student Software Projects

Cette étude menée auprès d'étudiants développeurs révèle que la perception du sentiment des messages est fortement dépendante du contenu spécifique des énoncés et de la variabilité individuelle, plutôt que d'être systématiquement influencée par des facteurs contextuels comme les phases de projet ou les dynamiques de groupe.

Martin Obaidi, Marc Herrmann, Jendrik Martensen, Jil Klünder, Kurt Schneider2026-03-12💻 cs

RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion

Les auteurs proposent une architecture hiérarchique couplant apprentissage par renforcement et contrôle prédictif de modèle pour générer des gaites acycliques et des commandes de navigation, validée avec succès sur plusieurs plateformes robotiques allant de 50 à 120 kg, y compris un transfert zéro-shot vers le robot Centauro sans randomisation de domaine.

Andrea Patrizi, Carlo Rizzardo, Arturo Laurenzi, Francesco Ruscelli, Luca Rossini, Nikos G. Tsagarakis2026-03-12💻 cs

VoxCare: Studying Natural Communication Behaviors of Hospital Caregivers through Wearable Sensing of Egocentric Audio

L'article présente VoxCare, un système portable scalable qui analyse en temps réel les comportements de communication naturelle des soignants hospitaliers via l'audio égo-centrique sans stocker les enregistrements bruts, afin d'évaluer leur charge de travail et d'améliorer la prestation de soins.

Tiantian Feng, Kleanthis Avramidis, Anfeng Xu, Deqi Wang, Brandon M Booth, Shrikanth Narayanan2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

Ce papier présente S2D, une nouvelle pipeline qui combine un modèle de diffusion pour corriger les artefacts d'images et une stratégie de reconstruction robuste pour transformer des nuages de points épars en scènes 3D de haute qualité via le Splatting Gaussien 3D, permettant ainsi une reconstruction avec un nombre minimal d'images d'entrée.

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

Data Augmentation and Convolutional Network Architecture Influence on Distributed Learning

Cette étude analyse l'influence des architectures de réseaux de neurones convolutifs sur la précision des modèles et l'efficacité computationnelle dans les environnements d'apprentissage distribués, comblant ainsi un vide dans la compréhension de l'impact de ces modèles sur les ressources informatiques.

Victor Forattini Jansen, Emanuel Teixeira Martins, Yasmin Souza Lima, Flavio de Oliveira Silva, Rodrigo Moreira, Larissa Ferreira Rodrigues Moreira2026-03-12💻 cs

Novel Architecture of RPA In Oral Cancer Lesion Detection

Cette étude présente une nouvelle architecture de détection des lésions du cancer oral utilisant deux implémentations RPA optimisées, dont la version OC-RPAv2, qui réduit le temps de prédiction à 0,06 seconde par image grâce à l'utilisation du patron de conception Singleton et du traitement par lots, offrant ainsi une amélioration d'efficacité de 60 à 100 fois par rapport aux méthodes standards.

Revana Magdy, Joy Naoum, Ali Hamdi2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

Cet article présente un cadre d'apprentissage par imitation à vie qui améliore continuellement les politiques grâce à une réplay multimodale dans un espace latent et un ajustement incrémental des caractéristiques, établissant ainsi un nouvel état de l'art sur les benchmarks LIBERO avec une réduction significative de l'oubli.

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

Le système d'intelligence artificielle générative CBCTRepD comble le fossé des compétences en interprétation des CBCT maxillo-faciaux en produisant des rapports de haute qualité et en améliorant significativement la précision et l'exhaustivité du diagnostic pour les radiologues de tous niveaux d'expérience grâce à une collaboration homme-machine.

Qinxin Wu, Fucheng Niu, Hengchuan Zhu, Yifan Sun, Ye Shen, Xu Li, Han Wu, Leqi Liu, Zhiwen Pan, Zuozhu Liu, Fudong Zhu, Bin Feng2026-03-12💻 cs

Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

Cet article propose SSL-V3, une méthode d'apprentissage auto-supervisé combinant un Vision Transformer et une évaluation de la qualité vidéo sans référence pour améliorer la classification vidéo en ajustant les cartes de caractéristiques via un score de qualité, démontrant ainsi son efficacité sur des ensembles de données de soins de santé.

Jian Sun, Mohammad H. Mahoor2026-03-12💻 cs

Med-DualLoRA: Local Adaptation of Foundation Models for 3D Cardiac MRI

Le papier présente Med-DualLoRA, un cadre d'apprentissage fédéré efficace en communication qui améliore l'adaptation locale des modèles fondamentaux pour la détection de maladies en IRM cardiaque 3D en séparant les adaptations globales et locales via des modules LoRA, garantissant ainsi à la fois la confidentialité des données et des performances supérieures sur des données hétérogènes multi-centres.

Joan Perramon-Llussà, Amelia Jiménez-Sánchez, Grzegorz Skorupko, Fotis Avgoustidis, Carlos Martín-Isla, Karim Lekadir, Polyxeni Gkontra2026-03-12💻 cs