MICA: Multi-Agent Industrial Coordination Assistant

Dit paper introduceert MICA, een privacy-bewust, spraakgebaseerd multi-agent systeem dat adaptieve en veilige real-time ondersteuning biedt voor industriële workflows en dat door middel van Adaptive Step Fusion en nieuwe benchmarks de betrouwbaarheid en responsiviteit in dynamische fabrieksomgevingen significant verbetert.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Dit paper introduceert het ORIC-framework om de prestaties van grote visueel-taalmodellen te evalueren en te verbeteren bij het herkennen van objecten in incongruente contexten, waarbij wordt aangetoond dat dergelijke situaties de herkenning bemoeilijken en dat visuele versterkingsfine-tuning de betrouwbaarheid kan vergroten.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Quantized Visual Geometry Grounded Transformer

Dit paper introduceert QuantVGGT, het eerste kwantisatiekader voor Visual Geometry Grounded Transformers (VGGTs) dat middels Dubbel-Gegladde Fijne-Korrelige Kwantisatie en Ruis-gefilterde Divers Steekproeven de hoge reken- en geheugenkosten van deze modellen aanzienlijk verlaagt zonder in te leveren op reconstructieprecisie.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Het paper introduceert QuantSparse, een geïntegreerd framework dat modelquantisatie en attentiesparsificatie combineert via innovatieve technieken zoals Multi-Scale Salient Attention Distillation en Second-Order Sparse Attention Reparameterization om de rekenefficiëntie van video-diffusietransformators aanzienlijk te verbeteren zonder in te leveren op de kwaliteit.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Dit artikel introduceert PHASE-Net, een lichtgewicht en theoretisch onderbouwde deep learning-architectuur die, gebaseerd op de Navier-Stokes-vergelijkingen, robuuste en efficiënte niet-contact fysiologische monitoring mogelijk maakt door middel van een Axial Swapper, een Adaptieve Ruimtelijke Filter en een Gated TCN.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Deze paper introduceert LMOD+, een uitgebreide multimodale dataset en benchmark met 32.633 gevallen voor ophthalmologie die is ontwikkeld om multimodale grote taalmodellen te evalueren op taken zoals ziekteopsporing, -stadiëring en demografische voorspelling, met als doel de ontwikkeling van AI-toepassingen ter bestrijding van wereldwijde oogziekten te versnellen.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Deze systematische scoping review analyseert de toepassing van onbewaakte diepe generatieve modellen voor het detecteren van afwijkingen in neurobeelden, waarbij wordt geconcludeerd dat deze methoden veelbelovend zijn voor pathologie-agnostische lokalisatie ondanks uitdagingen zoals methodologische heterogeniteit en beperkte externe validatie.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Dit paper introduceert Dream4Drive, een nieuw raamwerk voor het genereren van synthetische data dat wereldmodellen voor rijden omzet in een krachtig hulpmiddel om de prestaties van waarnemingsmodellen voor autonoom rijden, met name in zeldzame situaties, significant te verbeteren.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs