A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR

Cet article présente un cadre d'apprentissage profond robuste pour la reconnaissance des plaques d'immatriculation bengalies, combinant une localisation optimisée via YOLOv8 et une reconnaissance de texte par un modèle Vision-Language (ViT + BanglaBERT), atteignant une précision de 97,83 % et démontrant une grande efficacité dans des conditions réelles variées.

Nayeb Hasin, Md. Arafath Rahman Nishat, Mainul Islam, Khandakar Shakib Al Hasan, Asif Newaz2026-03-12💻 cs

SpecOps: A Fully Automated AI Agent Testing Framework in Real-World GUI Environments

Le papier présente SpecOps, un cadre de test entièrement automatisé utilisant des agents LLM spécialisés pour évaluer de manière efficace et rentable la fiabilité des agents IA basés sur des interfaces graphiques dans des environnements réels, surpassant les méthodes existantes en précision de planification et en détection de bugs.

Syed Yusuf Ahmed, Shiwei Feng, Chanwoo Bae, Calix Barrus Xiangyu Zhang2026-03-12💻 cs

Post-Quantum Entropy as a Service for Embedded Systems

Cette étude présente un système d'Entropie Quantique en tant que Service (QEaaS) pour les systèmes embarqués, démontrant que l'utilisation de protocoles post-quantiques sur ESP32 permet non seulement d'assurer une haute qualité d'entropie via des canaux sécurisés, mais aussi d'obtenir des performances de handshake DTLS 1.3 supérieures à celles des méthodes classiques.

Javier Blanco-Romero, Yuri Melissa Garcia-Niño, Florina Almenares Mendoza, Daniel Díaz-Sánchez, Carlos García-Rubio, Celeste Campo2026-03-12💻 cs

Update-Free On-Policy Steering via Verifiers

L'article propose UF-OPS, une méthode de guidage on-policy sans mise à jour qui utilise des fonctions vérificatrices entraînées sur des données de déployage pour orienter les politiques de base vers des actions plus susceptibles de réussir, améliorant ainsi de 49 % en moyenne le taux de réussite sur des tâches réelles sans modifier les paramètres du modèle.

Maria Attarian, Ian Vyse, Claas Voelcker, Jasper Gerigk, Evgenii Opryshko, Anas Almasri, Sumeet Singh, Yilun Du, Igor Gilitschenski2026-03-12💻 cs

Instant Runoff Voting on Graphs: Exclusion Zones and Distortion

Cet article étudie la complexité computationnelle et la distorsion utilitaire du vote par élimination instantanée (IRV) sur des graphes, démontrant que la vérification et le calcul des zones d'exclusion sont polynomiaux sur les arbres mais NP-difficiles sur les graphes généraux, tout en établissant des bornes de distorsion pour divers scénarios.

Georgios Birmpas, Georgios Chionas, Efthyvoulos Drousiotis, Soodeh Habibi, Marios Mavronicolas, Paul Spirakis2026-03-12💻 cs

From Imitation to Intuition: Intrinsic Reasoning for Open-Instance Video Classification

Ce papier présente DeepIntuit, un cadre de raisonnement intrinsèque qui transforme la classification vidéo d'instances ouvertes en passant de l'imitation à l'intuition grâce à une alignement supervisé, un raffinement par optimisation de politique et une calibration intuitive, surpassant ainsi les modèles traditionnels face aux variations complexes des données réelles.

Ke Zhang, Xiangchen Zhao, Yunjie Tian, Jiayu Zheng, Vishal M. Patel, Di Fu2026-03-12💻 cs

SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning

Ce papier présente ReST-RL, une architecture d'apprentissage par renforcement hiérarchique qui, en découplant la locomotion de la stabilisation de la charge via un module résiduel, permet aux humanoïdes de transporter des plateaux de manière robuste et précise, avec une généralisation réussie de la simulation à la réalité sur le robot Unitree G1.

Anlun Huang, Zhenyu Wu, Soofiyan Atar, Yuheng Zhi, Michael Yip2026-03-12💻 cs

Towards Modeling Situational Awareness Through Visual Attention in Clinical Simulations

Cette étude préliminaire utilise l'analyse des réseaux de transition appliquée aux données de suivi oculaire dans des simulations de réanimation cardiaque en réalité virtuelle pour modéliser la dynamique de la conscience situationnelle et révéler comment la répartition de l'attention visuelle s'adapte aux rôles et aux phases de la tâche au sein d'équipes cliniques.

Haoting Gao, Kapotaksha Das, Mohamed Abouelenien, Michael Cole, James Cooke, Vitaliy Popov2026-03-12💻 cs

PRoADS: Provably Secure and Robust Audio Diffusion Steganography with latent optimization and backward Euler Inversion

Le papier propose PRoADS, un cadre de stéganographie audio basé sur les modèles de diffusion qui garantit sécurité et robustesse grâce à une projection matricielle orthogonale et à des techniques d'optimisation latente et d'inversion d'Euler, permettant d'atteindre un taux d'erreur de bits extrêmement faible de 0,15 % même après compression MP3.

YongPeng Yan, Yanan Li, Qiyang Xiao, Yanzhen Ren2026-03-12💻 cs

The Orthogonal Vulnerabilities of Generative AI Watermarks: A Comparative Empirical Benchmark of Spatial and Latent Provenance

Cette étude démontre que les filigranes numériques actuels, qu'ils opèrent dans le domaine spatial ou latent, possèdent des vulnérabilités mathématiquement orthogonales et mutuellement exclusives face aux outils d'édition générative moderne, révélant ainsi l'insuffisance des approches mono-domaine pour assurer une provenance numérique robuste.

Jesse Yu, Nicholas Wei2026-03-12💻 cs

Fuel Gauge: Estimating Chain-of-Thought Length Ahead of Time in Large Multimodal Models

Le papier présente « Fuel Gauge », une méthode innovante qui prédit à l'avance la longueur du processus de raisonnement (Chain-of-Thought) des grands modèles multimodaux en estimant un paramètre de « carburant » caché, permettant ainsi d'optimiser l'allocation de mémoire et d'améliorer la précision en évitant les raisonnements insuffisants ou excessifs.

Yuedong Yang, Xiwen Wei, Mustafa Munir, Radu Marculescu2026-03-12💻 cs

Adaptive Manipulation Potential and Haptic Estimation for Tool-Mediated Interaction

Cet article propose un cadre fermé intégrant une estimation haptique, une planification en ligne et un contrôle adaptatif de la raideur, basé sur une variété d'équilibre paramétrée, pour réaliser une manipulation d'outils robuste et précise en milieu encombré, comme démontré par des essais réels de desserrage de vis.

Lin Yang, Anirvan Dutta, Yuan Ji, Yanxin Zhou, Shilin Shan, Lv Chen, Etienne Burdet, Domenico Campolo2026-03-12💻 cs

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

Le papier présente StyleGallery, un cadre de transfert de style personnalisé sans entraînement et conscient du sémantique qui, en utilisant des images de référence arbitraires et un processus en trois étapes (segmentation, appariement et optimisation), surpasse les méthodes existantes en préservant la structure du contenu tout en assurant une stylisation précise et adaptable.

Boyu He (College of Computer Science and Technology, National University of Defense Technology), Yunfan Ye (School of Design, Hunan University), Chang Liu (College of Computer Science and Technology, National University of Defense Technology), Weishang Wu (College of Computer Science and Technology, National University of Defense Technology), Fang Liu (School of Design, Hunan University), Zhiping Cai (College of Computer Science and Technology, National University of Defense Technology)2026-03-12💻 cs

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Cette proposition de cadre unifié sans entraînement combat les hallucinations des modèles multimodaux en manipulant les tokens visuels via deux modules complémentaires, la calibration visuelle synergique et la calibration causale, pour rétablir l'équilibre vision-langage et améliorer la précision POPE de 2 % sur LLaVA-1.5 avec une surcharge d'inférence négligeable.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi2026-03-12💻 cs