cs.CV papers | Gist.Science

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Deze paper introduceert IAG, de eerste multi-doel backdoor-aanval op vision-language modellen voor visuele grounding, die dynamische, tekstgestuurde triggers gebruikt om onopgemerkt objecten te manipuleren zonder de prestaties op schone data te beïnvloeden.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Het paper introduceert Video-EM, een trainingsvrij, gebeurtenisgericht raamwerk dat lange video's omzet in een compacte, tijdsgebonden episodische geheugenreeks door middel van een zelfreflecterende LLM-agent, waardoor bestaande Video-LLMs effectiever langdurige videovragen kunnen beantwoorden zonder extra training.

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Ao Ma, Run Ling, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li2026-03-10💻 cs

UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding

Dit paper introduceert UniUGG, het eerste geïntegreerde raamwerk dat een LLM en een latente diffusiemodel combineert om zowel 3D-generatie als ruimtelijk visueel vraag-antwoord (VQA) mogelijk te maken door middel van een geometrisch-semantische leerstrategie.

Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang2026-03-10💻 cs

PhysGM: Large Physical Gaussian Model for Feed-Forward 4D Synthesis

Dit paper introduceert PhysGM, een voorspellend framework dat op basis van één afbeelding direct zowel 3D-Gaussische representaties als fysische eigenschappen voorspelt, waardoor realistische 4D-simulaties in slechts één minuut mogelijk zijn zonder tijdrovende optimalisatie.

Chunji Lv, Zequn Chen, Donglin Di, Weinan Zhang, Hao Li, Wei Chen, Yinjie Lei, Changsheng Li2026-03-10💻 cs

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Dit paper introduceert een efficiënt diffusion-gebaseerd raamwerk voor 3D-houdingsbepaling dat gebruikmaakt van een hiërarchische tijdelijke pruning-strategie om de rekentijd aanzienlijk te verminderen en de inferentiesnelheid te verhogen, terwijl het tegelijkertijd state-of-the-art prestaties behaalt.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

PointSlice introduceert een nieuwe slice-gebaseerde representatie en een Slice Interaction Network om 3D-objectdetectie uit puntwolken te versnellen en de parameter-efficiëntie te verbeteren, terwijl de nauwkeurigheid op grote datasets zoals Waymo, nuScenes en Argoverse 2 behouden blijft.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Dit paper introduceert MDM-MixMFL, een nieuw federatief leerframework voor MRI-segmentatie dat modale ontkoppeling en een memorisatiemechanisme gebruikt om de uitdagingen van heterogene en onvolledige multimodale data in gedistribueerde medische scenario's aan te pakken.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Deze studie introduceert een visiegebaseerd systeem dat met behulp van computer vision en objectdetectie het rijgedrag van niet-verbonden voertuigen analyseert om afleiding en vermoeidheid te detecteren en zo bijdraagt aan het verminderen van verkeersongevallen.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

Deze paper introduceert UltraUPConvNet, een computerefficiënt multi-task framework dat gebaseerd is op UPerNet en ConvNeXt en tegelijkertijd weefselsegmentatie en ziektevoorspelling in ultrasone beelden uitvoert met state-of-the-art prestaties.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Traffic-MLLM is een nieuw raamwerk voor verkeersredenering dat in plaats van expliciete casusretrieval een gestructureerde casusruimte leert door middel van curieuze, op RND gebaseerde regularisatie, wat leidt tot verbeterde prestaties in dynamische en zeldzame verkeerssituaties.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Dit artikel introduceert SAGA, een nieuwe methode voor lineaire attention die door middel van selectieve adaptieve gating de prestaties en efficiëntie van Transformer-modellen bij hoge resoluties verbetert door de beperkingen van uniforme compressie te overwinnen.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Deze paper introduceert de Cumulative Consensus Score (CCS), een labelvrije en modelonafhankelijke methode die testtijd-data-augmentatie en ruimtelijke consistentie van voorspellingen gebruikt om de betrouwbaarheid van objectdetectiemodellen in de praktijk continu te evalueren zonder grondwaarheid-annotaties.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Dit paper introduceert WHU-STree, een uitgebreid, multi-modaal dataset voor straatbomen die synchroniseerde puntwolken en afbeeldingen bevat van twee steden, en die dient als benchmark voor diverse taken zoals boomsoortclassificatie en individuele boomsegmentatie om de efficiëntie van stedelijke boominventarisatie te verbeteren.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

Dit paper introduceert MICA, een privacy-bewust, spraakgebaseerd multi-agent systeem dat adaptieve en veilige real-time ondersteuning biedt voor industriële workflows en dat door middel van Adaptive Step Fusion en nieuwe benchmarks de betrouwbaarheid en responsiviteit in dynamische fabrieksomgevingen significant verbetert.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Dit paper introduceert het ORIC-framework om de prestaties van grote visueel-taalmodellen te evalueren en te verbeteren bij het herkennen van objecten in incongruente contexten, waarbij wordt aangetoond dat dergelijke situaties de herkenning bemoeilijken en dat visuele versterkingsfine-tuning de betrouwbaarheid kan vergroten.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Deze paper presenteert een snelle, op gebeurtenissen gebaseerde visuele teach-and-repeat-navigatiesysteem dat via kruiscorrelatie in het Frequentiedomein een verwerkingslatentie van slechts 2,88 ms bereikt en autonoom navigatie over meer dan 3 kilometer in diverse omstandigheden mogelijk maakt met een afwijking van minder dan 15 cm.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Deze studie toont aan dat bestaande videobenchmarks audio vaak negeren, maar dat het integreren van spraakencoders in moderne Video-LLMs wel degelijk leidt tot significante verbeteringen bij taken die luisteren vereisen.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Dit paper introduceert FINS, een lichtgewicht framework dat met behulp van een enkele afbeelding en vooraf getrainde fundamentele modellen binnen enkele seconden hoogwaardige impliciete oppervlakken en SDF-velden reconstrueert voor robottoepassingen zoals bewegingsgeneratie.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Dit paper introduceert QuantVGGT, het eerste kwantisatiekader voor Visual Geometry Grounded Transformers (VGGTs) dat middels Dubbel-Gegladde Fijne-Korrelige Kwantisatie en Ruis-gefilterde Divers Steekproeven de hoge reken- en geheugenkosten van deze modellen aanzienlijk verlaagt zonder in te leveren op reconstructieprecisie.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Deze paper introduceert MATR, een Motion-Aware Transformer die de associatie- en detectieprestaties van multi-object tracking in complexe scènes aanzienlijk verbetert door objectbewegingen expliciet te voorspellen en query-conflicten te verminderen, wat resulteert in state-of-the-art resultaten op diverse benchmarks.

Xu Yang, Gady Agam2026-03-10💻 cs

← Vorige Volgende →