cs.CV papers | Gist.Science

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Het artikel presenteert PathoScribe, een geïntegreerd framework dat op grote schaal digitale pathologierapporten omzet in een interactieve, redenerende kennisbron die artsen in staat stelt om via natuurlijke taal gevallen te doorzoeken, onderzoeksgroepen te bouwen en klinische vragen te beantwoorden, wat leidt tot een aanzienlijke tijdsbesparing en verbeterde patiëntenzorg.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Dit paper introduceert BiCLIP, een eenvoudig framework dat door het toepassen van een gestructureerde geometrische transformatie op multimodale kenmerken, gebruikmakend van een klein aantal ankers, state-of-the-art prestaties bereikt bij few-shot classificatie in gespecialiseerde domeinen.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Deze paper introduceert het eerste exemplaarvrije benchmark voor voortdurend leren in audio-visuele segmentatie en stelt ATLAS voor, een nieuwe methode die gebruikmaakt van audio-gestuurde pre-fusie en Low-Rank Anchoring om catastrofisch vergeten te voorkomen in dynamische omgevingen.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing Zhu2026-03-11⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Het artikel introduceert SVG-EAR, een parameterloze methode die de rekenefficiëntie van videogeneratie met Diffusion Transformers verbetert door een foutbewuste routering te gebruiken om verwaarloosde attention-blokken nauwkeurig te compenseren zonder extra training.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin Cheung2026-03-11💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

Dit paper introduceert SurgCalib, een markerloos hand-oog kalibratiesysteem voor de da Vinci-robot dat gebruikmaakt van Gaussische splatting en een differentieerbare renderingpiplijn om nauwkeurige kalibratie te bereiken zonder sterielheidsprotocollen te schenden.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. Salcudean2026-03-11💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

SkipGS is een plug-and-play methode die de trainingstijd van 3D Gaussian Splatting met 23,1% verkort door tijdens de post-densificatiefase adaptief backpropagation over te slaan wanneer de verlieswaarde van een weergave stabiel is, zonder de reconstructiekwaliteit te beïnvloeden.

Jingxing Li, Yongjae Leeand, Deliang Fan2026-03-11💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Dit paper introduceert een diffusion-based authenticatieramenwerk dat gebruikmaakt van printerhandtekeningen en ControlNet om vervalsingen van Copy Detection Patterns (CDP's) effectief te onderscheiden, zelfs bij gebruik van hoogwaardige print- en scantechnologie.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-Junior2026-03-11💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Dit paper introduceert Normalized Flow Matching (NFM), een methode die de quasi-bepaalde koppelingsstrategie van een voorgeïntegreerd autoregressief normaliserend stroommodel distilleert om een student-model te trainen dat zowel de prestaties van onafhankelijke en optimale transport-koppelingen overtreft als die van de leraar zelf verbetert.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei Zhai2026-03-11🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Deze paper introduceert een exacte en architectuurgetrouwe maatstaf voor de vlakheid van CNN-modellen, gebaseerd op een gesloten vorm voor de Hessiaanse trace, die een robuuste voorspelling biedt voor het generalisatievermogen en de ontwerpkeuzes van deze netwerken.

Rahman Taleghani, Maryam Mohammadi, Francesco Marchetti2026-03-11🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Dit paper introduceert WS-Net, een diep leerframework dat state-space-modelling en een zwak-signaal-attentie-mechanisme combineert om de nauwkeurigheid van hyperspectrale ontbinding te verbeteren door zwakke signaalresponsen effectief te isoleren van dominante eindleden en ruis.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun Zhou2026-03-11🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

Deze paper introduceert SpectralDiff, een spectrale gestructureerde diffusiemodel dat gericht is op het effectief verwijderen van regenstrepen uit afbeeldingen door gebruik te maken van spectrale verstoringen en een efficiënte full-product U-Net-architectuur.

Yucheng Xing, Xin Wang2026-03-11💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Deze studie presenteert een verbeterd YOLOv8-gebaseerd raamwerk dat brand- en rookdetectie combineert met afstandsberekening tot nabijgelegen objecten om een kwantitatieve risicoscore te genereren voor proactief brandveiligheidsbeheer op ingenieurslocaties.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan Ubaid2026-03-11💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Het paper introduceert GST-VLA, een 3D diepte-bewust Vision-Language-Action-model dat anisotrope 3D-Gaussische ruimtelijke tokens en gestructureerde redeneerprocessen gebruikt om de precisie en prestaties van robotacties aanzienlijk te verbeteren.

Md Selim Sarowar, Omer Tariq, Sungho Kim2026-03-11🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

Dit paper introduceert OmniEdit, een trainingsvrij framework dat lip-sync en audio-visuele bewerking mogelijk maakt door het FlowEdit-paradigma te hervormen, waardoor rekenkundige kosten en data-eisen worden vermeden.

Lixiang Lin, Siyuan Jin, Jinshan Zhang2026-03-11💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Dit paper introduceert een nieuw raamwerk voor het genereren van fysiek plausibele video's door het gebruik van een keten van gebeurtenisgerichte causale redenering en transitiebewuste cross-modale prompting om fysieke fenomenen te modelleren als een opeenvolging van causaal verbonden en dynamisch evoluerende gebeurtenissen.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie Lei2026-03-11💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Dit onderzoek analyseert de prestatieverschillen tussen tekst en afbeeldingen in multimodale taalmodellen, identificeert de oorzaken van deze 'modale kloof' en stelt een zelfdistillatiemethode voor die de nauwkeurigheid bij het lezen van tekst in afbeeldingen aanzienlijk verbetert zonder kennisverlies.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Het paper introduceert MedKCO, een methode voor medisch visueel-taalvoortraining die de representatiekwaliteit verbetert door een cognitief georkestreerde curriculumlearning aanpak te gebruiken die de volgorde van de trainingsdata en het contrastieve leerdoel dynamisch aanpast.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi Zhou2026-03-11💻 cs

Training-free Motion Factorization for Compositional Video Generation

Deze paper introduceert een trainingsvrij raamwerk voor compositievideo-generatie dat complexe beweging ontbindt in statische, rigide en niet-rigide categorieën via een 'planning-voor-generatie'-paradigma, waardoor diverse objecten met gecontroleerde bewegingen en uiterlijk kunnen worden gegenereerd zonder bestaande diffusion-modellen te hoeven hertrainen.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie Lei2026-03-11💻 cs

Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations

Dit artikel introduceert een transformer-gebaseerd raamwerk voor het zoeken naar huidkankergevallen via samengestelde visueel-taalqueries, dat door middel van gezamenlijke globale en lokale uitlijning klinisch relevante case-gegevens efficiënter en nauwkeuriger identificeert dan bestaande methoden.

Yuheng Wang, Yuji Lin, Dongrun Zhu, Jiayue Cai, Sunil Kalia, Harvey Lui, Chunqi Chang, Z. Jane Wang, Tim K. Lee2026-03-11🤖 cs.AI

VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs

VIVID-Med introduceert een efficiënt kader voor het vooraf trainen van medische vision transformers met behulp van een bevroren groot taalmodel als gestructureerde leraar, wat resulteert in een lichtgewicht, alleen-vision model dat aanzienlijk betere prestaties levert dan bestaande methoden met minder data en zonder de zware taalmodelcomponent tijdens het gebruik.

Xiyao Wang, Xiaoyu Tan, Yang Dai, Yuxuan Fu, Shuo Li, Xihe Qiu2026-03-11🤖 cs.AI

← Vorige Volgende →