MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Dit paper introduceert MM-TS, een methode voor multi-modale contrastieve learning die dynamische temperatuur- en margeschema's gebruikt om de prestaties op langstaartdata te verbeteren en InfoNCE-loss met max-margin-objectieven te verenigen, wat leidt tot nieuwe state-of-the-art resultaten op diverse beeld- en video-taalkundige datasets.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Deze studie introduceert twee nieuwe fusiestrategieën, RGIF en RGMAF, die registratiebewustzijn en betrouwbaarheidsgebaseerde aandacht gebruiken om de prestaties van UAV-detectie in heterogene thermische en visuele sensoren aanzienlijk te verbeteren.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Multi-Objective Evolutionary Optimization of Chance-Constrained Multiple-Choice Knapsack Problems with Implicit Probability Distributions

Dit paper introduceert NHILS, een hybride evolutionair algoritme dat een efficiënte Monte Carlo-methode (OPERA-MC) combineert met NSGA-II om het meerdoelige kansbeperkte multiple-choice knapsack-probleem met impliciete verdelingen op te lossen, wat leidt tot superieure prestaties bij het optimaliseren van 5G-netwerkconfiguraties.

Xuanfeng Li, Shengcai Liu, Wenjie Chen, Yew-Soon Ong, Ke Tang2026-03-10💻 cs

Disentangling Reasoning in Large Audio-Language Models for Ambiguous Emotion Prediction

Dit artikel introduceert een raamwerk voor grote audio-taalmodellen dat dubbelzinnige spraakemotieherkenning behandelt als een distributief redeneerprobleem door een ambiguiteitsbewust doel en gestructureerde chain-of-thought-supervisie te combineren, wat leidt tot consistente prestatieverbeteringen op benchmarkdatasets.

Xiaofeng Yu, Jiaheng Dong, Jean Honorio, Abhirup Ghosh, Hong Jia, Ting Dang2026-03-10💻 cs

Exploring Deep Learning and Ultra-Widefield Imaging for Diabetic Retinopathy and Macular Edema

Dit onderzoek toont aan dat state-of-the-art deep learning-modellen, waaronder vision transformers en foundation modellen, in combinatie met ultra-widefield imaging en frequentiedomeinrepresentaties, zeer effectief zijn voor het beoordelen van beeldkwaliteit, het detecteren van referabele diabetische retinopathie en diabetisch maculair oedeem, waarbij feature-level fusion en Grad-CAM-analyse de robuustheid en uitlegbaarheid verder verbeteren.

Pablo Jimenez-Lizcano, Sergio Romero-Tapiador, Ruben Tolosana, Aythami Morales, Guillermo González de Rivera, Ruben Vera-Rodriguez, Julian Fierrez2026-03-10💻 cs

Why Learn What Physics Already Knows? Realizing Agile mmWave-based Human Pose Estimation via Physics-Guided Preprocessing

Dit paper introduceert een fysica-gestuurde voorverwerkingsmethode voor millimetergolf-gebaseerde menselijke pose-schatting die, door expliciete fysieke priors te gebruiken in plaats van data-gedreven modules, de modelgrootte met 55,7-88,9% verkleint en real-time implementatie op Raspberry Pi mogelijk maakt zonder in te leveren op nauwkeurigheid.

Shuntian Zheng, Jiaqi Li, Minzhe Ni, Xiaoman Lu, Yu Guan2026-03-10💻 cs

DynamicVGGT: Learning Dynamic Point Maps for 4D Scene Reconstruction in Autonomous Driving

Dit paper introduceert DynamicVGGT, een uniek feed-forward framework dat VGGT uitbreidt tot dynamische 4D-scèneherconstructie voor autonoom rijden door het gezamenlijk voorspellen van puntkaarten en het gebruik van motion-aware temporal attention en dynamische 3D Gaussian Splatting voor nauwkeurige bewegingsmodellering.

Zhuolin He, Jing Li, Guanghao Li, Xiaolei Chen, Jiacheng Tang, Siyang Zhang, Zhounan Jin, Feipeng Cai, Bin Li, Jian Pu, Jia Cai, Xiangyang Xue2026-03-10💻 cs