cs.CV papers | Gist.Science

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Dit artikel introduceert PHASE-Net, een lichtgewicht en theoretisch onderbouwde deep learning-architectuur die, gebaseerd op de Navier-Stokes-vergelijkingen, robuuste en efficiënte niet-contact fysiologische monitoring mogelijk maakt door middel van een Axial Swapper, een Adaptieve Ruimtelijke Filter en een Gated TCN.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Deze paper introduceert LMOD+, een uitgebreide multimodale dataset en benchmark met 32.633 gevallen voor ophthalmologie die is ontwikkeld om multimodale grote taalmodellen te evalueren op taken zoals ziekteopsporing, -stadiëring en demografische voorspelling, met als doel de ontwikkeling van AI-toepassingen ter bestrijding van wereldwijde oogziekten te versnellen.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Dit paper introduceert REVEL, een nieuwe taak voor interactieve videomanipulatie, en presenteert DragStream, een trainingsvrije methode die drift en contextuele storingen in autoregressieve videodiffusiemodellen effectief oplost om vloeiende drag-bewegingen op elk moment mogelijk te maken.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

Dit paper introduceert AR-Drag, het eerste RL-verbeterde autoregressieve videodiffusiemodel dat real-time, hoogwaardige beeld-naar-video-generatie met diverse bewegingscontrole mogelijk maakt door een trajectgebaseerde beloning en een zelf-rollout-mechanisme.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Deze systematische scoping review analyseert de toepassing van onbewaakte diepe generatieve modellen voor het detecteren van afwijkingen in neurobeelden, waarbij wordt geconcludeerd dat deze methoden veelbelovend zijn voor pathologie-agnostische lokalisatie ondanks uitdagingen zoals methodologische heterogeniteit en beperkte externe validatie.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Deze paper introduceert een nieuw Continual Audio-Visual Segmentation-taak en een Collision-based Multi-modal Rehearsal-framework om modale verstrengeling en semantische drift in fijnkorrelige, meervoudige modale continue leerproblemen effectief aan te pakken.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Dit paper introduceert Dream4Drive, een nieuw raamwerk voor het genereren van synthetische data dat wereldmodellen voor rijden omzet in een krachtig hulpmiddel om de prestaties van waarnemingsmodellen voor autonoom rijden, met name in zeldzame situaties, significant te verbeteren.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

Dit paper introduceert MoE-GS, een unificerend framework voor dynamische 3D Gaussian Splatting dat gebruikmaakt van een volume-bewuste pixelrouter om meerdere deskundigen te combineren voor superieure nieuwe weergavesynthese, terwijl tegelijkertijd efficiëntie wordt verbeterd via multi-expert rendering en distillatie.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

Dit paper introduceert AnyPcc, een universeel raamwerk voor puntwolkcompressie dat door middel van een universeel contextmodel en een instance-gebaseerde fijne-tuning-strategie (IAFT) de generalisatieproblemen van bestaande methoden oplost en nieuwe state-of-the-art resultaten bereikt op diverse datasets.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Dit artikel introduceert een geautomatiseerd systeem voor het tellen van plaaginsecten in watervallen dat door middel van een robotarm en een adaptieve, gesloten-lus besturingsstrategie verstoppingen oplost en zo de telnauwkeurigheid aanzienlijk verbetert ten opzichte van traditionele statische beeldanalyse.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Dit paper introduceert CountFormer, een exemplaarvrij framework dat de DINOv2-vision foundation model gebruikt om visuele herhaling en structuur te leren voor objecttelling, en toont aan dat representatiekwaliteit cruciaal is voor het verminderen van overtellingen bij complexe objecten, hoewel de prestaties op de FSC-147-benchmark vergelijkbaar blijven met eerdere methoden.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

SAGE is een zero-shot methode die structurele geleiding combineert met generatieve synthese om naadloze en visueel coherente videotransities te creëren tussen diverse clips, waardoor het de beperkingen van bestaande klassieke en generatieve methoden overtreft zonder dat er gespecialiseerde trainingsdata nodig is.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Deze studie introduceert een forensische methode voor het detecteren van door AI gegenereerde afbeeldingen, genaamd 'diffusion snap-back reconstruction', die analyseert hoe afbeeldingen reageren op reconstructie door een diffusiemodel en hiermee een hoge nauwkeurigheid bereikt zonder te vertrouwen op traditionele pixelartefacten.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Dit paper introduceert Jr. AI Scientist, een autonoom systeem dat als beginnend onderzoeker werkt om nieuwe wetenschappelijke hypotheses te formuleren en te valideren op basis van bestaande papers, en analyseert zowel de prestaties als de risico's en beperkingen van dergelijke systemen voor de toekomst van de academische gemeenschap.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Dit artikel introduceert MUGSQA, een nieuwe methode, dataset en benchmarks voor de kwaliteitsbeoordeling van 3D-reconstructies met Gaussian Splatting, waarbij rekening wordt gehouden met meerdere onzekerheden in de invoergegevens om de perceptuele kwaliteit nauwkeuriger te evalueren.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

Dit paper introduceert CountOCC, een nieuw framework voor amodale objecttelling dat door middel van hiërarchische multimodale gidsing en een visuele equivalentiedoelstelling de door verduistering veroorzaakte fouten in bestaande methoden oplost en zo state-of-the-art prestaties bereikt op nieuwe, verduisterde datasets.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Dit artikel introduceert de Angular Gradient Sign-methode, een nieuw adversariaal aanvalsmechanisme dat specifiek de hoekcomponent van gradiënten in de hyperbolische ruimte benut om efficiëntere en geometrisch consistente aanvalspunten te genereren dan bestaande methoden.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Het artikel introduceert Video2Layout, een framework dat met behulp van continue objectgrenskoördinaten in plaats van rasterkaarten een metrisch onderbouwde cognitieve kaart reconstrueert uit video's, waardoor de ruimtelijke redeneerprestaties van multimodale grote taalmodellen significant worden verbeterd.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Deze paper introduceert MOMNet, een nieuw raamwerk voor dieptedetailverbetering dat zonder strikte ruimtelijke uitlijning tussen RGB- en dieptedata presteert door middel van een multi-orde matching- en aggregatiemechanisme, waardoor het robuust is tegen misalignement in real-world scenario's.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

Dit paper introduceert DualMindVLM, een visueel taalmodel dat een efficiënt dual-systeem denkmechanisme implementeert door automatisch te kiezen tussen snelle en langzame redenering op basis van probleemcomplexiteit, wat leidt tot state-of-the-art prestaties met minder tokenverspilling.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

← Vorige Volgende →