cs.CV papers | Gist.Science

LightMedSeg: Lightweight 3D Medical Image Segmentation with Learned Spatial Anchors

Het paper introduceert LightMedSeg, een lichtgewicht 3D-medische beeldsegmentatiearchitectuur die anatomische prioren en adaptieve contextmodelling combineert om met slechts 0,48 miljoen parameters een nauwkeurigheid te bereiken die vergelijkbaar is met zware transformer-modellen, terwijl het tegelijkertijd de rekenkosten en geheugeneisen drastisch verlaagt.

Kavyansh Tyagi, Vishwas Rathi, Puneet Goyal2026-03-10🤖 cs.LG

Single Image Super-Resolution via Bivariate `A Trous Wavelet Diffusion

Dit paper introduceert BATDiff, een onbewaakte diffusiemodel dat gebruikmaakt van een bivariate `A Trous`-golftransformatie om scherpere en structureel consistentere super-resolutie-resultaten te genereren door cross-schaal afhankelijkheden te modelleren en artefacten te verminderen.

Heidari Maryam, Anantrasirichai Nantheera, Achim Alin2026-03-10💻 cs

HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

Het paper introduceert HY-WU, een uitbreidbaar raamwerk dat de nadruk verlegt van het overschrijven van gedeelde modelgewichten naar het gebruik van functioneel neurale geheugenmodules om instantie-specifieke aanpassingen in real-time te genereren voor continu leren en personalisatie.

Tencent HY Team2026-03-10💻 cs

FabricGen: Microstructure-Aware Woven Fabric Generation

Het paper introduceert FabricGen, een end-to-end framework dat tekstuele beschrijvingen omzet in realistische geweven stoffen door macro-texturen te genereren met gedetailleerde diffusion-modellen en micro-weefpatronen te creëren via een procedurale geometrische aansturing door een gespecialiseerd WeavingLLM.

Yingjie Tang, Di Luo, Zixiong Wang, Xiaoli Ling, jian Yang, Beibei Wang2026-03-10💻 cs

PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Dit paper introduceert PresentBench, een fijnmazig, op rubrics gebaseerd benchmark met 238 instances en gedetailleerde checklists om de kwaliteit van automatisch gegenereerde presentaties nauwkeuriger te evalueren en aan te tonen dat NotebookLM andere methoden significant overtreft.

Xin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo2026-03-10💻 cs

LEPA: Learning Geometric Equivariance in Satellite Remote Sensing Data with a Predictive Architecture

Het paper introduceert LEPA, een architectuur die de onbetrouwbare latent-space interpolatie vervangt door het direct voorspellen van getransformeerde embeddings op basis van geometrische augmentaties, waardoor de nauwkeurigheid van geometrische aanpassingen in satellietremote sensing-data aanzienlijk wordt verbeterd.

Erik Scheurer, Rocco Sedona, Stefan Kesselheim, Gabriele Cavallaro2026-03-10💻 cs

Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

Dit paper introduceert Variational Flow Maps, een raamwerk dat voorwaardelijke generatie en inverse problemen oplost door in plaats van een iteratief pad te volgen, een 'noise adapter' te leren die de juiste initiële ruis genereert voor hoogwaardige, één-staps steekproeven.

Abbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner2026-03-10🤖 cs.LG

Virtual Try-On for Cultural Clothing: A Benchmarking Study

Deze studie introduceert BD-VITON, een nieuwe dataset voor virtuele passen van traditionele Bangladeshi kleding zoals saree's en panjabis, en toont aan dat het herbekijken en evalueren van bestaande modellen op deze dataset leidt tot significante verbeteringen ten opzichte van zero-shot inferentie.

Muhammad Tausif Ul Islam, Shahir Awlad, Sameen Yeaser Adib, Md. Atiqur Rahman, Sabbir Ahmed, Md. Hasanul Kabir2026-03-10💻 cs

MAviS: A Multimodal Conversational Assistant For Avian Species

Dit paper introduceert MAviS, een multimodaal conversatie-assistent voor vogelsoorten dat bestaat uit een uitgebreide dataset, een chat-model en een benchmark, en waarmee state-of-the-art resultaten worden behaald voor gedetailleerd begrip en vragenbeantwoording over vogelsoorten in ecologische toepassingen.

Yevheniia Kryklyvets, Mohammed Irfan Kurpath, Sahal Shaji Mullappilly, Jinxing Zhou, Fahad Shabzan Khan, Rao Anwer, Salman Khan, Hisham Cholakkal2026-03-10💻 cs

Training for Trustworthy Saliency Maps: Adversarial Training Meets Feature-Map Smoothing

Dit artikel introduceert een trainingsgerichte aanpak die adversarial training combineert met een lichtgewicht feature-map smoothing-blok om ruwe, onstabiele saliëntiekaarten om te zetten in betrouwbare, schaarse en stabiele visualisaties die door mensen als meer waardevol worden ervaren.

Dipkamal Bhusal, Md Tanvirul Alam, Nidhi Rastogi2026-03-10💻 cs

StructSAM: Structure- and Spectrum-Preserving Token Merging for Segment Anything Models

Het paper introduceert StructSAM, een nieuw token-merging-framework dat de structuur en het spectrum behoudt om de Segment Anything Model (SAM) efficiënter te maken zonder de precisie van randen of prompt-informatie te verliezen.

Duy M. H. Nguyen, Tuan A. Tran, Duong Nguyen, Siwei Xie, Trung Q. Nguyen, Mai T. N. Truong, Daniel Palenicek, An T. Le, Michael Barz, TrungTin Nguyen, Tuan Dam, Ngan Le, Minh Vu, Khoa Doan, Vien Ngo, Pengtao Xie, James Zou, Daniel Sonntag, Jan Peters, Mathias Niepert2026-03-10🤖 cs.LG

Faster-HEAL: An Efficient and Privacy-Preserving Collaborative Perception Framework for Heterogeneous Autonomous Vehicles

Deze paper introduceert Faster-HEAL, een lichtgewicht en privacy-bewust raamwerk dat door middel van low-rank visuele prompts en pyramidale fusie heterogene autonome voertuigen efficiënt aanpast aan een gedeelde perceptie-ruimte, waardoor de detectieprestaties worden verbeterd zonder de privacy te schaden of grote modellen opnieuw te hoeven trainen.

Armin Maleki, Hayder Radha2026-03-10💻 cs

A Lightweight Digital-Twin-Based Framework for Edge-Assisted Vehicle Tracking and Collision Prediction

Dit artikel presenteert een lichtgewicht, op digitale tweeling gebaseerd framework dat objectdetectie en offline padkaarten gebruikt voor real-time voertuigtracking en botsingsvoorspelling op randapparatuur, zonder complexe trajectvoorspellingsmodellen.

Murat Arda Onsu, Poonam Lohan, Burak Kantarci, Aisha Syed, Matthew Andrews, Sean Kennedy2026-03-10💻 cs

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

De AgrI Challenge introduceert een data-centric AI-framework met Cross-Team Validatie om de generalisatiekloof in landbouwhoogtevisie te overbruggen, waarbij wordt aangetoond dat gezamenlijk trainen op door meerdere teams verzamelde datasets de robuustheid aanzienlijk verbetert ten opzichte van enkelvoudige brontraining.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

Dit paper introduceert NT-Diffusion, een hiërarchisch diffusiemodel dat de rekenkosten verlaagt en de nauwkeurigheid verbetert bij het voorspellen van lange-termijn brandrisico's door het delen van vroege denoising-fasen en het vertakken voor specifieke tijdstippen.

Yucheng Xing, Xin Wang2026-03-10🤖 cs.LG

Task learning increases information redundancy of neural responses in macaque visual cortex

Uit onderzoek aan makaken blijkt dat het leren van een taak de redundantie van neurale responsen in het visuele cortex verhoogt, wat de hypothese ondersteunt dat het brein informatie via generatieve inferentie optimaliseert in plaats van door redundantie te verminderen.

Shizhao Liu, Anton Pletenev, Ralf M. Haefner, Adam C. Snyder2026-03-10💻 cs

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Dit paper introduceert AQuA, een gedetailleerd dataset en framework dat Vision-Language Models in staat stelt om ambiguïteit in visuele vragen te herkennen en strategisch te reageren door de juiste respons te kiezen, zoals het vragen om verduidelijking of het geven van alternatieve antwoorden, in plaats van overmoedig te antwoorden.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

Dit artikel introduceert een interpreteerbaar 3D Concept Bottleneck-model dat morfologische en hemodynamische kenmerken integreert om intracraniële aneurysma's met hoge nauwkeurigheid te classificeren zonder in te leveren op klinische transparantie.

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

VIVECaption: A Split Approach to Caption Quality Improvement

Dit technische rapport introduceert VIVECaption, een tweezijdige aanpak die een gestructureerd evaluatietaxonomie combineert met een gefinancierd dataset-creatieproces en modelafstemming om de kwaliteit van beeldbeschrijvingen te verbeteren en zo de prestaties van generatieve AI-modellen te optimaliseren zonder afhankelijk te zijn van auteursrechtelijk beschermde webgegevens.

Varun Ananth, Baqiao Liu, Haoran Cai2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Dit artikel presenteert een methode om met Vision-Language Models en gestuurde prompts betekenisvolle bijschriften voor afbeeldingen van individuele tanden te genereren, waarmee een hiaat in bestaande datasets wordt gedicht die vaak beperkt zijn tot het volledige gebit of specifieke aandoeningen.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

← Vorige Volgende →