cs.CV papers | Gist.Science

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Dit artikel presenteert een door een digitale tweeling aangedreven robotisch sortersysteem dat multimodale waarneming en visuele taalmodellen integreert voor het succesvol automatisch sorteren van textiel en het detecteren van vreemde voorwerpen in industriële omgevingen.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

Dit artikel introduceert ICHOR, een zelftoezicht-gebaseerde masked autoencoder die is getraind op een groot, divers dataset van ASL CBF-scans om robuuste representaties te leren die de prestaties van bestaande methoden voor diagnostische classificatie en kwaliteitsvoorspelling in neurobeeldvorming verbeteren.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

CATNet is een adaptief compensatiekader dat samenwerking tussen voertuigen verbetert door een unieke combinatie van spatio-temporele synchronisatie, golfkleur-gedreven ruisreductie en adaptieve kenmerkselectie om de uitdagingen van hoge temporale latentie en multi-bronruis in real-world scenario's op te lossen.

Gong Chen, Chaokun Zhang, Tao Tang + 3 more2026-03-06💻 cs

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Dit paper introduceert Wiki-R1, een curriculum reinforcement learning-framework dat door middel van gecontroleerde data-generatie en een slimme steekproefstrategie multimodale redeneervermogens van modellen verbetert voor kennisgebaseerde visuele vraagbeantwoording, wat leidt tot nieuwe state-of-the-art resultaten op benchmarks zoals Encyclopedic VQA en InfoSeek.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Deze studie toont aan dat voor de optimale out-of-distribution-probing van Vision Transformers de beste prestaties worden behaald door zowel de juiste modellaag als het specifieke moduletype (feedforward-netwerk bij sterke distributieveranderingen versus genormaliseerde self-attention bij zwakke veranderingen) te selecteren.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Dit paper introduceert WebChain, het grootste open-source dataset van menselijk geannoteerde webinteracties, en een bijbehorende trainingsmethode die state-of-the-art prestaties bereikt voor webagents door visuele, structurele en actie-data te combineren.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

Fusion4CA is een nieuwe methode voor 3D-objectdetectie die de prestaties van bestaande LiDAR-Camera-fusiemodellen aanzienlijk verbetert door de visuele informatie via een contrastieve uitlijningsmodule en een camera-auxiliaire tak volledig te benutten, wat resulteert in een hogere nauwkeurigheid met minder trainingsrondes en een minimale toename van de inferentieparameters.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers

Deze paper introduceert SpectralCache, een trainingsvrije en plug-and-play caching-methode die de inferentie van Diffusion Transformers versnelt door gebruik te maken van tijds-, diepte- en frequentiegevoelige strategieën om de berekening te optimaliseren zonder de beeldkwaliteit significant te verminderen.

Guandong Li2026-03-06💻 cs

Dark3R: Learning Structure from Motion in the Dark

Deze paper introduceert Dark3R, een raamwerk dat structure-from-motion en nieuwe weergavesynthese mogelijk maakt in extreme donkere omstandigheden met een signaal-ruisverhouding onder de -4 dB, door grote 3D-fondamentmodellen aan te passen via distillatie en training op ruwe beelden zonder 3D-supervisie.

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

OpenFrontier is een trainingsvrij navigatiekader dat visueel-linguïstische priormodellen integreert via semantische ankers op verkenningsfrontiers, waardoor robots zonder gedetailleerde 3D-kaarten of fijnafstemming efficiënt en met sterke zero-shot-prestaties kunnen navigeren in complexe open werelden.

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Deze paper introduceert ORMOT, een nieuwe taak voor het volgen van meerdere objecten op basis van taalbeschrijvingen in omnidirectionele beelden, en presenteert het bijbehorende ORSet-dataset en het ORTrack-framework om de beperkingen van het gezichtsveld in traditionele camera's te overwinnen.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

Dit artikel introduceert Fusion-CAM, een nieuw raamwerk dat gradiënt- en gebiedsgebaseerde class activation maps combineert via een adaptief fusiemechanisme om robuustere en nauwkeurigere visuele verklaringen voor diepe neurale netwerken te genereren.

Hajar Dekdegue, Moncef Garouani, Josiane Mothe + 1 more2026-03-06💻 cs

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

Dit artikel introduceert CliReg, een deterministisch algoritme dat RANSAC vervangt door een zoektocht naar maximale cliques in een compatibiliteitsgrafiek, waardoor de robuustheid en nauwkeurigheid van lus-sluiting in 3D LiDAR-SLAM aanzienlijk worden verbeterd, vooral onder uitdagende omstandigheden.

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

Dit artikel presenteert een op video gebaseerd systeem dat gebruikmaakt van multi-object tracking met YOLOv11 om de zwembewegingen van Sulawesi-risvissen te analyseren voor de vroege detectie van gezondheidsproblemen in de aquacultuur.

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

Het artikel introduceert MobileFetalCLIP, een methode voor selectieve repulsieve kennisdistillatie die een compact model van 11,4 miljoen parameters ontwikkelt dat de prestaties van een groot 304M-parameter leraarmodel op het gebied van foetale echografieanalyse overtreft en real-time implementatie op mobiele apparaten mogelijk maakt.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

RelaxFlow: Text-Driven Amodal 3D Generation

RelaxFlow is een trainingsvrij raamwerk dat tekstgestuurde amodale 3D-generatie mogelijk maakt door de rigide controle van waargenomen gebieden te scheiden van een ontspannen structurele controle voor onzichtbare delen, waardoor objecten worden voltooid die zowel visueel trouw blijven aan de invoer als voldoen aan de tekstuele intentie.

Jiayin Zhu, Guoji Fu, Xiaolu Liu + 3 more2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

Dit paper introduceert SAIL, een nieuwe aanpak voor zwak-toezicht op dichte videobeschrijvingen die semantisch bewuste maskers creëert via kruismodale uitlijning en LLM-gegenereerde synthetische captions, waardoor zowel de lokale precisie als de beschrijvingskwaliteit aanzienlijk worden verbeterd.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

Dit paper introduceert CompACT, een compacte discrete tokenizer die waarnemingen comprimeert tot slechts 8 tokens, waardoor wereldmodellen voor beslissingsplanning aanzienlijk sneller en efficiënter worden zonder in te leveren op prestaties.

Dongwon Kim, Gawon Seo, Jinsung Lee + 2 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

Dit paper introduceert NaiLIA, een multimodale methode voor het terugvinden van nagelontwerpen die complexe intentbeschrijvingen en kleurenpaletten effectiever verwerkt dan bestaande modellen, getest op een nieuw, omvangrijk dataset met diverse culturele achtergronden.

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

RealWonder: Real-Time Physical Action-Conditioned Video Generation

RealWonder is een real-time systeem dat fysieke acties omzet in video's door ze via een fysicasimulatie te vertalen naar visuele representaties, waardoor interactieve simulaties van krachten, robotacties en cameracontrole op diverse objecten mogelijk worden.

Wei Liu, Ziyu Chen, Zizhang Li + 3 more2026-03-06🤖 cs.AI

← Vorige Volgende →