UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios

Ce papier présente UniSync, un cadre unifié qui surpasse les méthodes actuelles de synchronisation labiale en combinant une stratégie d'entraînement sans masque pour la fidélité des couleurs et un inférence de fusion basée sur un masque pour la précision structurelle, permettant ainsi une adaptation robuste à des scénarios réels complexes incluant des avatars stylisés et des conditions d'éclairage extrêmes.

Ruidi Fan, Yang Zhou, Siyuan Wang + 3 more2026-03-05💻 cs

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Cet article propose un cadre d'évaluation unifié et de nouvelles métriques pour évaluer conjointement la détection des données hors distribution et la prédiction des erreurs de classification, démontrant que l'utilisation de fonctions de double score améliore significativement la fiabilité des classificateurs par rapport aux approches traditionnelles.

Yang Li, Youyang Sha, Yinzhi Wang + 4 more2026-03-05🤖 cs.LG

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

Cet article présente une architecture de suivi d'objets modulaire et asynchrone (MATA) intégrant des transformateurs et un filtre de Kalman étendu pour les drones, accompagnée d'un nouveau protocole d'évaluation et d'une métrique (NT2F) validés sur des plateformes embarquées pour améliorer la robustesse et l'efficacité en temps réel.

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks

Cet article présente FGAesthetics, une nouvelle base de données fine-grainée pour l'évaluation esthétique des images, ainsi que le cadre FGAesQ qui utilise des comparaisons relatives et des techniques d'alignement textuel pour apprendre des scores discriminatifs capables de distinguer des variations esthétiques subtiles tout en maintenant des performances compétitives sur des évaluations grossières.

Zhichao Yang, Jianjie Wang, Zhixianhe Zhang + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Cet article propose une méthode d'injection de n-grammes (NGI) dans les décodeurs de Transformers pour adapter dynamiquement les modèles de reconnaissance de texte manuscrit à des distributions linguistiques cibles lors de l'inférence, réduisant ainsi significativement l'écart de performance sans nécessiter de réentraînement sur des paires image-texte.

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs

DISC: Dense Integrated Semantic Context for Large-Scale Open-Set Semantic Mapping

Le papier présente DISC, une méthode de cartographie sémantique open-set à grande échelle qui surpasse les approches actuelles en éliminant l'extraction de caractéristiques par recadrage grâce à un mécanisme d'extraction dense et pondéré par la distance, permettant une cartographie sémantique précise et en temps réel directement sur GPU.

Felix Igelbrink, Lennart Niecksch, Martin Atzmueller + 1 more2026-03-05💻 cs

Cross-Modal Mapping and Dual-Branch Reconstruction for 2D-3D Multimodal Industrial Anomaly Detection

Ce papier présente CMDR-IAD, un cadre d'apprentissage non supervisé léger et flexible qui améliore la détection d'anomalies industrielles en combinant une cartographie bidirectionnelle 2D-3D et une reconstruction à double branche pour intégrer de manière robuste les données d'apparence et de géométrie, atteignant ainsi des performances de pointe sur les benchmarks MVTec 3D-AD et des ensembles de données industriels réels.

Radia Daci, Vito Renò, Cosimo Patruno + 4 more2026-03-05🤖 cs.AI

Slice-wise quality assessment of high b-value breast DWI via deep learning-based artifact detection

Cette étude démontre qu'un réseau de neurones convolutionnel de type DenseNet121 permet de détecter avec une grande précision les artefacts d'intensité hyper- et hypointense sur des images de résonance magnétique mammaire pondérées en diffusion à haut b-value, offrant ainsi une solution prometteuse pour l'évaluation de la qualité des images par tranches.

Ameya Markale, Luise Brock, Ihor Horishnyi + 10 more2026-03-05💻 cs

Structural Action Transformer for 3D Dexterous Manipulation

Ce papier présente le Structural Action Transformer (SAT), une nouvelle politique de manipulation dextre 3D qui surpasse les méthodes existantes en reformulant les actions comme des séquences structurelles de trajectoires articulaires plutôt que temporelles, permettant ainsi un transfert de compétences efficace entre différents robots grâce à un codebook articulaire et un apprentissage par flux continu sur des nuages de points 3D.

Xiaohan Lei, Min Wang, Bohong Weng + 2 more2026-03-05💻 cs

UniRain: Unified Image Deraining with RAG-based Dataset Distillation and Multi-objective Reweighted Optimization

Ce papier présente UniRain, un cadre unifié de dérainage d'images qui améliore la généralisation grâce à une distillation de données basée sur la génération augmentée par récupération (RAG) et une stratégie d'optimisation repondérée multi-objectifs intégrée à une architecture de mélange d'experts asymétrique, permettant ainsi de restaurer efficacement des images dégradées par la pluie et les gouttes dans diverses conditions diurnes et nocturnes.

Qianfeng Yang, Qiyuan Guan, Xiang Chen + 3 more2026-03-05💻 cs