cs.CV papers | Gist.Science

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

Dit onderzoek presenteert een kosteneffectief, computer vision-gebaseerd parkeersysteem dat gebruikmaakt van YOLOv8 en inverse perspectiefmapping om vanuit vier camerabewakingen dynamisch beschikbare parkeerplekken te detecteren en deze in een 3D-omgeving weer te geven voor efficiëntere stadsparkeerbeheer.

Prachi Nandi, Sonakshi Satapathy, Suchismita Chinara2026-03-11💻 cs

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

Dit paper introduceert MuCTaL, een lichtgewicht deep learning-model dat door middel van gebalanceerde training op vier kankersoorten nauwkeurige tumorlokalisatie bereikt in digitale pathologie en bovendien generaliseert naar onzichtbare tumorsoorten zoals pancreaskanker.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

HECTOR: Hybrid Editable Compositional Object References for Video Generation

HECTOR is een nieuwe generatieve pijplijn die het mogelijk maakt om video's te creëren met fijnmazige, samenstellingsgerichte controle door het combineren van statische en dynamische referenties met expliciete trajectvoorschriften voor individuele objecten.

Guofeng Zhang, Angtian Wang, Jacob Zhiyuan Fang, Liming Jiang, Haotian Yang, Alan Yuille, Chongyang Ma2026-03-11💻 cs

Comparative Analysis of Patch Attack on VLM-Based Autonomous Driving Architectures

Deze studie onthult dat visueel-taalmodellen voor autonoom rijden, zoals Dolphins, OmniDrive en LeapVAD, ernstig kwetsbaar zijn voor fysieke patch-aanvallen, wat leidt tot aanhoudende fouten en kritieke detectieproblemen in simulaties.

David Fernandez, Pedram MohajerAnsari, Amir Salarpour, Long Cheng, Abolfazl Razi, Mert D. Pesé2026-03-11💻 cs

Towards Visual Query Segmentation in the Wild

Deze paper introduceert visuele query-segmentatie (VQS) als een nieuw paradigma voor het pixel-precies lokaliseren van objecten in onbewerkte video's, ondersteund door het grote VQS-4K-benchmark en de effectieve VQ-SAM-methode die SAM 2 uitbreidt.

Bing Fan, Minghao Li, Hanzhi Zhang, Shaohua Dong, Naga Prudhvi Mareedu, Weishi Shi, Yunhe Feng, Yan Huang, Heng Fan2026-03-11💻 cs

Multi-Kernel Gated Decoder Adapters for Robust Multi-Task Thyroid Ultrasound under Cross-Center Shift

Dit artikel introduceert de Multi-Kernel Gated Adapter (MKGA), een lichtgewicht decoder-aanpassing die de robuustheid van multi-task thyroïd-echografie-analyses onder domeinverschuivingen verbetert door de complementaire sterktes van CNN's en ViT's te benutten voor betere segmentatie en maligniteitsschatting.

Maziar Sabouri, Nourhan Bayasi, Arman Rahmim2026-03-11🔬 physics

Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning

Het paper introduceert MedCBR, een nieuw raamwerk dat conceptbottleneck-modellen combineert met visueel-taalmogelijkheden en klinische richtlijnen om interpreteerbare, op redenering gebaseerde medische diagnoses te genereren die de expertlogica nabootsen.

Mohamed Harmanani, Bining Long, Zhuoxin Guo, Paul F. R. Wilson, Amirhossein Sabour, Minh Nguyen Nhat To, Gabor Fichtinger, Purang Abolmaesumi, Parvin Mousavi2026-03-11🤖 cs.LG

MEGC2026: Micro-Expression Grand Challenge on Visual Question Answering

Het MEGC2026-challenge introduceert twee nieuwe taken, namelijk micro-expressie video-vraagbeantwoording (ME-VQA) en langdurige video-vraagbeantwoording (ME-LVQA), om de analyse van micro-expressies met behulp van multimodale grote taalmodellen te bevorderen.

Xinqi Fan, Jingting Li, John See, Moi Hoon Yap, Su-Jing Wang, Adrian K. Davison2026-03-11💻 cs

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

TIDE is een trainingsvrije methode die Diffusion Transformers in staat stelt om afbeeldingen van willekeurige resoluties en aspectverhoudingen te genereren zonder extra samplekosten, door een tekstankeringsmechanisme en een dynamische temperatuurregeling te gebruiken om structurele degradatie en artefacten te voorkomen.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming Zhang2026-03-11💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Dit paper introduceert een synthetische benchmark die aantoont dat Vision Language Foundation-modellen, zoals Gemma 3 en Qwen3-VL, via in-context learning dronebeelden kunnen vertalen naar JSON-configuraties voor plantensimulaties, waarmee een schaalbaar raamwerk wordt geboden voor digitale tweelingen in de landbouw, hoewel de modellen nog steeds vatbaar zijn voor contextuele bias en afhankelijkheid van datasetgemiddelden.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Het artikel presenteert PathoScribe, een geïntegreerd framework dat op grote schaal digitale pathologierapporten omzet in een interactieve, redenerende kennisbron die artsen in staat stelt om via natuurlijke taal gevallen te doorzoeken, onderzoeksgroepen te bouwen en klinische vragen te beantwoorden, wat leidt tot een aanzienlijke tijdsbesparing en verbeterde patiëntenzorg.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Dit paper introduceert BiCLIP, een eenvoudig framework dat door het toepassen van een gestructureerde geometrische transformatie op multimodale kenmerken, gebruikmakend van een klein aantal ankers, state-of-the-art prestaties bereikt bij few-shot classificatie in gespecialiseerde domeinen.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Deze paper introduceert het eerste exemplaarvrije benchmark voor voortdurend leren in audio-visuele segmentatie en stelt ATLAS voor, een nieuwe methode die gebruikmaakt van audio-gestuurde pre-fusie en Low-Rank Anchoring om catastrofisch vergeten te voorkomen in dynamische omgevingen.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu2026-03-11⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Het artikel introduceert SVG-EAR, een parameterloze methode die de rekenefficiëntie van videogeneratie met Diffusion Transformers verbetert door een foutbewuste routering te gebruiken om verwaarloosde attention-blokken nauwkeurig te compenseren zonder extra training.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung2026-03-11💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

Dit paper introduceert SurgCalib, een markerloos hand-oog kalibratiesysteem voor de da Vinci-robot dat gebruikmaakt van Gaussische splatting en een differentieerbare renderingpiplijn om nauwkeurige kalibratie te bereiken zonder sterielheidsprotocollen te schenden.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

SkipGS is een plug-and-play methode die de trainingstijd van 3D Gaussian Splatting met 23,1% verkort door tijdens de post-densificatiefase adaptief backpropagation over te slaan wanneer de verlieswaarde van een weergave stabiel is, zonder de reconstructiekwaliteit te beïnvloeden.

Jingxing Li, Yongjae Leeand, Deliang Fan2026-03-11💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Dit paper introduceert een diffusion-based authenticatieramenwerk dat gebruikmaakt van printerhandtekeningen en ControlNet om vervalsingen van Copy Detection Patterns (CDP's) effectief te onderscheiden, zelfs bij gebruik van hoogwaardige print- en scantechnologie.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-Junior2026-03-11💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Dit paper introduceert Normalized Flow Matching (NFM), een methode die de quasi-bepaalde koppelingsstrategie van een voorgeïntegreerd autoregressief normaliserend stroommodel distilleert om een student-model te trainen dat zowel de prestaties van onafhankelijke en optimale transport-koppelingen overtreft als die van de leraar zelf verbetert.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Deze paper introduceert een exacte en architectuurgetrouwe maatstaf voor de vlakheid van CNN-modellen, gebaseerd op een gesloten vorm voor de Hessiaanse trace, die een robuuste voorspelling biedt voor het generalisatievermogen en de ontwerpkeuzes van deze netwerken.

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Dit paper introduceert WS-Net, een diep leerframework dat state-space-modelling en een zwak-signaal-attentie-mechanisme combineert om de nauwkeurigheid van hyperspectrale ontbinding te verbeteren door zwakke signaalresponsen effectief te isoleren van dominante eindleden en ruis.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

← Vorige Volgende →