cs.CV papers | Gist.Science

SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

Deze paper introduceert SiamGM, een real-time Siamese netwerk voor satellietvideo-objecttracking dat geometrie- en bewegingsbewustzijn combineert om nauwkeurige tracking te bereiken bij kleine doelen en complexe omstandigheden zonder extra rekenkosten.

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

Het paper introduceert GRD-Net, een nieuw model voor industriële afwijkingdetectie dat een generatieve reconstructie-architectuur combineert met een discriminatieve module voor segmentatie van gebieden van belang, waardoor de afhankelijkheid van vooraf gedefinieerde voorverwerkingsalgoritmen wordt verminderd en de generalisatie op zowel synthetische als realistische industriële datasets wordt verbeterd.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

Dit artikel presenteert een efficiënt RGB-D-scenarioverwerkingsmodel dat gebruikmaakt van een verbeterde fusie-encoder, aangepaste focuslagen en een multi-task adaptieve verliesfunctie om verschillende taken zoals semantische en instance-segmentatie met hoge nauwkeurigheid en snelheid uit te voeren.

Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang2026-03-10💻 cs

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Dit artikel presenteert een systematische vergelijking van vier trainingsdoelen voor het detecteren van out-of-distributie in beeldclassificatie en concludeert dat Cross-Entropy Loss over het algemeen de meest consistente prestaties levert, hoewel andere methoden in specifieke scenario's concurrerend kunnen zijn.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Dit paper presenteert een semi-supervised anomaliedetectieframework op basis van generatieve adversariale netwerken dat is ontworpen voor online implementatie op een hoge-snelheids Blow-Fill-Seal-productielijn, waar het met hoge nauwkeurigheid en binnen strikte tijdsbeperkingen defecten detecteert door enkel te trainen op nominale monsters.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

3DGS-HPC: Distractor-free 3D Gaussian Splatting with Hybrid Patch-wise Classification

Het paper introduceert 3DGS-HPC, een robuust framework dat tijdelijke afleidingen in 3D-scènes effectief elimineert door een hybride, patch-gebaseerde classificatiestrategie te combineren die lokale ruimtelijke consistentie en adaptieve visuele cues benut, waardoor de kwaliteit van 3D-Gaussian Splatting voor nieuwe weergaven in realistische omgevingen aanzienlijk wordt verbeterd.

Jiahao Chen, Yipeng Qin, Ganlong Zhao, Xin Li, Wenping Wang, Guanbin Li2026-03-10💻 cs

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

Dit paper introduceert StructAttack, een black-box jailbreak-methode die kwetsbaarheden in Large Vision-Language Models exploiteert door schadelijke inhoud te verbergen in ogenschijnlijk onschadelijke visuele structuren die het model zelf tot een gevaarlijke output assembleert.

Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang2026-03-10🤖 cs.LG

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

Deze paper presenteert een efficiënte, geleerde methode voor het vereenvoudigen van LiDAR-puntwolken via een op attentie gebaseerd mechanisme, die een betere balans biedt tussen verwerkingssnelheid en nauwkeurigheid voor objectdetectie en -classificatie in vergelijking met bestaande steekproefmethodes.

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs

EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation

EmbedTalk introduceert een nieuwe methode voor realistische spraakgestuurde hoofdsynthese die tri-planes vervangt door leerbare embedding-driven Gaussische vervorming, wat resulteert in superieure kwaliteit en lip-sync bij een compactere modelgrootte en snelheden van meer dan 60 FPS op mobiele GPU's.

Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg2026-03-10💻 cs

Looking Into the Water by Unsupervised Learning of the Surface Shape

Deze paper introduceert een onbewaakte methode met twee neurale netwerken en SIREN-activaties om beeldvervormingen door wateroppervlakte-refractie te verwijderen en tegelijkertijd het oppervlak te reconstrueren, wat betere resultaten oplevert dan bestaande technieken.

Ori Lifschitz, Tali Treibitz, Dan Rosenbaum2026-03-10💻 cs

Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

Dit artikel introduceert een nieuw raamwerk voor visuele representatie waarbij video's worden gecodeerd als functies met lage-rang aanpassingen op een bevroren generatief model, waardoor compressie met uiterst lage bitrates mogelijk is en een brug wordt geslagen tussen beeldcompressie en generatie.

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu2026-03-10🤖 cs.LG

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Dit paper introduceert de 'Overthinking Score', een nieuwe methode die hallucinaties in Vision Language Models detecteert door de instabiliteit van hypotheses over decoderlagen te analyseren in plaats van alleen naar het eindresultaat te kijken.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan2026-03-10💻 cs

Duala: Dual-Level Alignment of Subjects and Stimuli for Cross-Subject fMRI Decoding

Duala is een nieuw raamwerk voor cross-subject fMRI-decodering dat door middel van dubbel niveau-uitlijning van stimuli en subjecten, zelfs met beperkte data, een verbeterde semantische consistentie en subjectspecifieke aanpassing bereikt voor nauwkeurigere beeldreconstructie.

Shumeng Li, Jintao Guo, Jian Zhang, Yulin Zhou, Luyang Cao, Yinghuan Shi2026-03-10💻 cs

Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation

Deze paper introduceert Mobile GlottisNet, een lichtgewicht framework voor real-time glottisdetectie tijdens nasotracheale intubatie dat door middel van ruimtelijk gedecoupeerde feature learning en dynamische aanpassing hoge prestaties bereikt op beperkte randapparatuur.

Jinyu Liu, Gaoyang Zhang, Yang Zhou, Ruoyi Hao, Yang Zhang, Hongliang Ren2026-03-10💻 cs

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Dit artikel introduceert een synthetische data-pipeline op basis van een digitale tweeling van de luchthaven van Algiers die, in combinatie met YOLO-OBB en gemengde training, de annotatie-inspanning voor het detecteren van bagagewagentjes met 25 tot 35 procent verlaagt terwijl de prestaties gelijk blijven aan of beter zijn dan die van modellen getraind op volledige real-world datasets.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

Deze paper introduceert AtomicVLA, een unificerend kader voor robotplanning en -executie dat via een Skill-Guided Mixture-of-Experts (SG-MoE) schaalbare atomaire vaardigheden leert en dynamisch combineert, waardoor robuustere prestaties worden bereikt bij langdurige taken en voortdurend leren in vergelijking met bestaande VLA-modellen.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

Het paper introduceert GLASS, een nieuw raamwerk dat graftheorie en visueel-taalmodellen combineert om zonder handmatige supervisie nauwkeurige, semantisch consistente 3D-vormcorrespondenties te leren, zelfs onder complexe niet-isometrische vervormingen en tussen verschillende klassen.

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

Dit paper introduceert het Self-Critical Inference-framework en de Dynamic Robustness Benchmark om de taalbias en -gevoeligheid van Vision-Language-modellen te verminderen door middel van meervoudige counterfactuele redenering en model-specifieke evaluatie.

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Dit paper introduceert Holi-Spatial, het eerste volledig geautomatiseerde, grootschalige multimodale datasetkader dat ruwe video-inputs omzet in holistische 3D-ruimtelijke intelligentie met behulp van een geoptimaliseerde pipeline voor 3D-Gaussian Splatting-reconstructies en ruimtelijke vraag-antwoordparen, waardoor de schaalbaarheid en prestaties van ruimtelijk redenerende modellen aanzienlijk worden verbeterd.

Yuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

Ref-DGS is een nieuw framework dat reflecterende oppervlakken efficiënt reconstrueert en nieuwe weergaven synthetiseert door geometrie en lokale reflecties te scheiden in een dubbele Gaussische representatie, waardoor het de snelheid van Rasterisatie combineert met de nauwkeurigheid van straalvolgende methoden zonder de hoge rekentkosten.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

← Vorige Volgende →