cs.CV papers | Gist.Science

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Deze paper introduceert de Cumulative Consensus Score (CCS), een labelvrije en modelonafhankelijke methode die testtijd-data-augmentatie en ruimtelijke consistentie van voorspellingen gebruikt om de betrouwbaarheid van objectdetectiemodellen in de praktijk continu te evalueren zonder grondwaarheid-annotaties.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Dit paper introduceert WHU-STree, een uitgebreid, multi-modaal dataset voor straatbomen die synchroniseerde puntwolken en afbeeldingen bevat van twee steden, en die dient als benchmark voor diverse taken zoals boomsoortclassificatie en individuele boomsegmentatie om de efficiëntie van stedelijke boominventarisatie te verbeteren.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

Dit paper introduceert MICA, een privacy-bewust, spraakgebaseerd multi-agent systeem dat adaptieve en veilige real-time ondersteuning biedt voor industriële workflows en dat door middel van Adaptive Step Fusion en nieuwe benchmarks de betrouwbaarheid en responsiviteit in dynamische fabrieksomgevingen significant verbetert.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Dit paper introduceert het ORIC-framework om de prestaties van grote visueel-taalmodellen te evalueren en te verbeteren bij het herkennen van objecten in incongruente contexten, waarbij wordt aangetoond dat dergelijke situaties de herkenning bemoeilijken en dat visuele versterkingsfine-tuning de betrouwbaarheid kan vergroten.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Deze paper presenteert een snelle, op gebeurtenissen gebaseerde visuele teach-and-repeat-navigatiesysteem dat via kruiscorrelatie in het Frequentiedomein een verwerkingslatentie van slechts 2,88 ms bereikt en autonoom navigatie over meer dan 3 kilometer in diverse omstandigheden mogelijk maakt met een afwijking van minder dan 15 cm.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Deze studie toont aan dat bestaande videobenchmarks audio vaak negeren, maar dat het integreren van spraakencoders in moderne Video-LLMs wel degelijk leidt tot significante verbeteringen bij taken die luisteren vereisen.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Dit paper introduceert FINS, een lichtgewicht framework dat met behulp van een enkele afbeelding en vooraf getrainde fundamentele modellen binnen enkele seconden hoogwaardige impliciete oppervlakken en SDF-velden reconstrueert voor robottoepassingen zoals bewegingsgeneratie.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Dit paper introduceert QuantVGGT, het eerste kwantisatiekader voor Visual Geometry Grounded Transformers (VGGTs) dat middels Dubbel-Gegladde Fijne-Korrelige Kwantisatie en Ruis-gefilterde Divers Steekproeven de hoge reken- en geheugenkosten van deze modellen aanzienlijk verlaagt zonder in te leveren op reconstructieprecisie.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Deze paper introduceert MATR, een Motion-Aware Transformer die de associatie- en detectieprestaties van multi-object tracking in complexe scènes aanzienlijk verbetert door objectbewegingen expliciet te voorspellen en query-conflicten te verminderen, wat resulteert in state-of-the-art resultaten op diverse benchmarks.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

GS-2M is een materiaalbewust optimalisatiekader dat 3D Gaussian Splatting gebruikt om vanuit multi-view beelden hoogwaardige, reflecterende oppervlakken om te zetten in nauwkeurige 3D-meshes door gezamenlijke optimalisatie van geometrie en materiaal, zonder afhankelijk te zijn van zware neurale componenten.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Dit paper introduceert FAMDA, een effectief zelftrainingskader dat Vision Foundation Models gebruikt als leraren om robuuste en efficiënte multi-task dense prediction-modellen te creëren die de prestaties van bestaande methoden voor domeinadaptatie in robotica significant verbeteren.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Het paper introduceert QuantSparse, een geïntegreerd framework dat modelquantisatie en attentiesparsificatie combineert via innovatieve technieken zoals Multi-Scale Salient Attention Distillation en Second-Order Sparse Attention Reparameterization om de rekenefficiëntie van video-diffusietransformators aanzienlijk te verbeteren zonder in te leveren op de kwaliteit.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Dit paper introduceert DualFlow, het eerste geünificeerde framework dat rectified flow en retrieval-augmented generation combineert om realistische, semantisch onderbouwde en ritmisch gesynchroniseerde interactieve bewegingen voor twee personen te genereren op basis van diverse modaliteiten zoals tekst, muziek en eerdere bewegingen.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Dit artikel introduceert PHASE-Net, een lichtgewicht en theoretisch onderbouwde deep learning-architectuur die, gebaseerd op de Navier-Stokes-vergelijkingen, robuuste en efficiënte niet-contact fysiologische monitoring mogelijk maakt door middel van een Axial Swapper, een Adaptieve Ruimtelijke Filter en een Gated TCN.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Deze paper introduceert LMOD+, een uitgebreide multimodale dataset en benchmark met 32.633 gevallen voor ophthalmologie die is ontwikkeld om multimodale grote taalmodellen te evalueren op taken zoals ziekteopsporing, -stadiëring en demografische voorspelling, met als doel de ontwikkeling van AI-toepassingen ter bestrijding van wereldwijde oogziekten te versnellen.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Dit paper introduceert REVEL, een nieuwe taak voor interactieve videomanipulatie, en presenteert DragStream, een trainingsvrije methode die drift en contextuele storingen in autoregressieve videodiffusiemodellen effectief oplost om vloeiende drag-bewegingen op elk moment mogelijk te maken.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

Dit paper introduceert AR-Drag, het eerste RL-verbeterde autoregressieve videodiffusiemodel dat real-time, hoogwaardige beeld-naar-video-generatie met diverse bewegingscontrole mogelijk maakt door een trajectgebaseerde beloning en een zelf-rollout-mechanisme.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Deze systematische scoping review analyseert de toepassing van onbewaakte diepe generatieve modellen voor het detecteren van afwijkingen in neurobeelden, waarbij wordt geconcludeerd dat deze methoden veelbelovend zijn voor pathologie-agnostische lokalisatie ondanks uitdagingen zoals methodologische heterogeniteit en beperkte externe validatie.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Deze paper introduceert een nieuw Continual Audio-Visual Segmentation-taak en een Collision-based Multi-modal Rehearsal-framework om modale verstrengeling en semantische drift in fijnkorrelige, meervoudige modale continue leerproblemen effectief aan te pakken.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Dit paper introduceert Dream4Drive, een nieuw raamwerk voor het genereren van synthetische data dat wereldmodellen voor rijden omzet in een krachtig hulpmiddel om de prestaties van waarnemingsmodellen voor autonoom rijden, met name in zeldzame situaties, significant te verbeteren.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

← Vorige Volgende →