A Robust Deep Learning Framework for Bangla License Plate Recognition Using YOLO and Vision-Language OCR

Dit artikel presenteert een robuust deep learning-framework voor het herkennen van Bengaalse kentekens, dat een aangepaste YOLOv8-architectuur combineert met een Vision-Language OCR-model (ViT + BanglaBERT) om een nauwkeurige detectie en tekstextractie te realiseren onder diverse real-world omstandigheden.

Nayeb Hasin, Md. Arafath Rahman Nishat, Mainul Islam, Khandakar Shakib Al Hasan, Asif Newaz2026-03-12💻 cs

Overcoming Visual Clutter in Vision Language Action Models via Concept-Gated Visual Distillation

Deze paper introduceert Concept-Gated Visual Distillation (CGVD), een trainingsvrij raamwerk dat de prestaties van Vision-Language-Action-modellen in rommelige omgevingen aanzienlijk verbetert door instructies te analyseren en visuele afleidingen te onderdrukken via Fourier-based inpainting, waardoor de succesratio van 43,0% naar 77,5% stijgt.

Sangmim Song, Sarath Kodagoda, Marc Carmichael, Karthick Thiyagarajan2026-03-12⚡ eess

StyleGallery: Training-free and Semantic-aware Personalized Style Transfer from Arbitrary Image References

StyleGallery is een trainingsvrije, semantische bewuste framework dat persoonlijke stijltransfer mogelijk maakt vanuit willekeurige referentieafbeeldingen door middel van adaptieve regio-segmentatie, precisie-afstemming en een energie-gestuurde optimalisatie, waardoor het de bestaande methoden overtreft in het behoud van contentstructuur en regionale stijl.

Boyu He (College of Computer Science and Technology, National University of Defense Technology), Yunfan Ye (School of Design, Hunan University), Chang Liu (College of Computer Science and Technology, National University of Defense Technology), Weishang Wu (College of Computer Science and Technology, National University of Defense Technology), Fang Liu (School of Design, Hunan University), Zhiping Cai (College of Computer Science and Technology, National University of Defense Technology)2026-03-12💻 cs

One Token, Two Fates: A Unified Framework via Vision Token Manipulation Against MLLMs Hallucination

Dit artikel introduceert een trainingsvrij, unificerend framework dat hallucinaties in multimodale taalmodellen effectief aanpakt door visuele tokens op twee manieren te manipuleren: via Synergistic Visual Calibration om visuele representaties te versterken en via Causal Representation Calibration om interne modelbias te corrigeren, wat leidt tot een significante verbetering van de nauwkeurigheid met slechts een minimale toename in inferentielatentie.

Zhan Fa, Yue Duan, Jian Zhang, Lei Qi, Yinghuan Shi2026-03-12💻 cs

Frames2Residual: Spatiotemporal Decoupling for Self-Supervised Video Denoising

Het paper introduceert Frames2Residual (F2R), een zelftoezichtend videodenruisingsframework dat spatiotemporale ontkoppeling toepast door het trainingsproces op te splitsen in een blinde temporale consistentiestap en een niet-blinde ruimtelijke textuurherstelstap, waardoor het de beperkingen van bestaande methoden overwint en superieure prestaties behaalt op zowel sRGB- als raw-videobenchmarks.

Mingjie Ji, Zhan Shi, Kailai Zhou, Zixuan Fu, Xun Cao2026-03-12💻 cs

TractoRC: A Unified Probabilistic Learning Framework for Joint Tractography Registration and Clustering

In dit artikel wordt TractoRC gepresenteerd, een unificerend probabilistisch leerframework dat tractografie-registratie en streamline-clustering gezamenlijk optimaliseert binnen één schema door een gedeelde, transformatie-equivariante latente inbeddingsruimte te leren, wat resulteert in een significante prestatieverbetering ten opzichte van bestaande methoden die deze taken afzonderlijk behandelen.

Yijie Li, Xi Zhu, Junyi Wang, Ye Wu, Lauren J. O'Donnell, Fan Zhang2026-03-12💻 cs