PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Dit artikel introduceert PHASE-Net, een lichtgewicht en theoretisch onderbouwde deep learning-architectuur die, gebaseerd op de Navier-Stokes-vergelijkingen, robuuste en efficiënte niet-contact fysiologische monitoring mogelijk maakt door middel van een Axial Swapper, een Adaptieve Ruimtelijke Filter en een Gated TCN.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Deze paper introduceert LMOD+, een uitgebreide multimodale dataset en benchmark met 32.633 gevallen voor ophthalmologie die is ontwikkeld om multimodale grote taalmodellen te evalueren op taken zoals ziekteopsporing, -stadiëring en demografische voorspelling, met als doel de ontwikkeling van AI-toepassingen ter bestrijding van wereldwijde oogziekten te versnellen.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Deze systematische scoping review analyseert de toepassing van onbewaakte diepe generatieve modellen voor het detecteren van afwijkingen in neurobeelden, waarbij wordt geconcludeerd dat deze methoden veelbelovend zijn voor pathologie-agnostische lokalisatie ondanks uitdagingen zoals methodologische heterogeniteit en beperkte externe validatie.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Dit paper introduceert Dream4Drive, een nieuw raamwerk voor het genereren van synthetische data dat wereldmodellen voor rijden omzet in een krachtig hulpmiddel om de prestaties van waarnemingsmodellen voor autonoom rijden, met name in zeldzame situaties, significant te verbeteren.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Dit paper introduceert CountFormer, een exemplaarvrij framework dat de DINOv2-vision foundation model gebruikt om visuele herhaling en structuur te leren voor objecttelling, en toont aan dat representatiekwaliteit cruciaal is voor het verminderen van overtellingen bij complexe objecten, hoewel de prestaties op de FSC-147-benchmark vergelijkbaar blijven met eerdere methoden.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Dit paper introduceert Jr. AI Scientist, een autonoom systeem dat als beginnend onderzoeker werkt om nieuwe wetenschappelijke hypotheses te formuleren en te valideren op basis van bestaande papers, en analyseert zowel de prestaties als de risico's en beperkingen van dergelijke systemen voor de toekomst van de academische gemeenschap.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

Counting Through Occlusion: Framework for Open World Amodal Counting

Dit paper introduceert CountOCC, een nieuw framework voor amodale objecttelling dat door middel van hiërarchische multimodale gidsing en een visuele equivalentiedoelstelling de door verduistering veroorzaakte fouten in bestaande methoden oplost en zo state-of-the-art prestaties bereikt op nieuwe, verduisterde datasets.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Het artikel introduceert Video2Layout, een framework dat met behulp van continue objectgrenskoördinaten in plaats van rasterkaarten een metrisch onderbouwde cognitieve kaart reconstrueert uit video's, waardoor de ruimtelijke redeneerprestaties van multimodale grote taalmodellen significant worden verbeterd.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs