Adaptive Enhancement and Dual-Pooling Sequential Attention for Lightweight Underwater Object Detection with YOLOv10

Cet article propose un cadre de détection d'objets sous-marins léger et robuste basé sur YOLOv10, intégrant un module d'amélioration adaptatif, un mécanisme d'attention à double mise en pool séquentielle et une fonction de perte FGIoU, qui améliore significativement la précision sur les jeux de données RUOD et DUO tout en conservant une architecture compacte adaptée aux systèmes embarqués.

Md. Mushibur Rahman, Umme Fawzia Rahim, Enam Ahmed Taufik2026-03-05💻 cs

UniSync: Towards Generalizable and High-Fidelity Lip Synchronization for Challenging Scenarios

Ce papier présente UniSync, un cadre unifié qui surpasse les méthodes actuelles de synchronisation labiale en combinant une stratégie d'entraînement sans masque pour la fidélité des couleurs et un inférence de fusion basée sur un masque pour la précision structurelle, permettant ainsi une adaptation robuste à des scénarios réels complexes incluant des avatars stylisés et des conditions d'éclairage extrêmes.

Ruidi Fan, Yang Zhou, Siyuan Wang + 3 more2026-03-05💻 cs

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Cet article propose un cadre d'évaluation unifié et de nouvelles métriques pour évaluer conjointement la détection des données hors distribution et la prédiction des erreurs de classification, démontrant que l'utilisation de fonctions de double score améliore significativement la fiabilité des classificateurs par rapport aux approches traditionnelles.

Yang Li, Youyang Sha, Yinzhi Wang + 4 more2026-03-05🤖 cs.LG

Architecture and evaluation protocol for transformer-based visual object tracking in UAV applications

Cet article présente une architecture de suivi d'objets modulaire et asynchrone (MATA) intégrant des transformateurs et un filtre de Kalman étendu pour les drones, accompagnée d'un nouveau protocole d'évaluation et d'une métrique (NT2F) validés sur des plateformes embarquées pour améliorer la robustesse et l'efficacité en temps réel.

Augustin Borne, Pierre Notin, Christophe Hennequin + 4 more2026-03-05💻 cs

Fine-grained Image Aesthetic Assessment: Learning Discriminative Scores from Relative Ranks

Cet article présente FGAesthetics, une nouvelle base de données fine-grainée pour l'évaluation esthétique des images, ainsi que le cadre FGAesQ qui utilise des comparaisons relatives et des techniques d'alignement textuel pour apprendre des scores discriminatifs capables de distinguer des variations esthétiques subtiles tout en maintenant des performances compétitives sur des évaluations grossières.

Zhichao Yang, Jianjie Wang, Zhixianhe Zhang + 4 more2026-03-05💻 cs

N-gram Injection into Transformers for Dynamic Language Model Adaptation in Handwritten Text Recognition

Cet article propose une méthode d'injection de n-grammes (NGI) dans les décodeurs de Transformers pour adapter dynamiquement les modèles de reconnaissance de texte manuscrit à des distributions linguistiques cibles lors de l'inférence, réduisant ainsi significativement l'écart de performance sans nécessiter de réentraînement sur des paires image-texte.

Florent Meyer, Laurent Guichard, Denis Coquenet + 3 more2026-03-05💻 cs