cs.CV papers | Gist.Science

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Dit paper introduceert AQuA, een gedetailleerd dataset en framework dat Vision-Language Models in staat stelt om ambiguïteit in visuele vragen te herkennen en strategisch te reageren door de juiste respons te kiezen, zoals het vragen om verduidelijking of het geven van alternatieve antwoorden, in plaats van overmoedig te antwoorden.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

Dit artikel introduceert een interpreteerbaar 3D Concept Bottleneck-model dat morfologische en hemodynamische kenmerken integreert om intracraniële aneurysma's met hoge nauwkeurigheid te classificeren zonder in te leveren op klinische transparantie.

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

VIVECaption: A Split Approach to Caption Quality Improvement

Dit technische rapport introduceert VIVECaption, een tweezijdige aanpak die een gestructureerd evaluatietaxonomie combineert met een gefinancierd dataset-creatieproces en modelafstemming om de kwaliteit van beeldbeschrijvingen te verbeteren en zo de prestaties van generatieve AI-modellen te optimaliseren zonder afhankelijk te zijn van auteursrechtelijk beschermde webgegevens.

Varun Ananth, Baqiao Liu, Haoran Cai2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Dit artikel presenteert een methode om met Vision-Language Models en gestuurde prompts betekenisvolle bijschriften voor afbeeldingen van individuele tanden te genereren, waarmee een hiaat in bestaande datasets wordt gedicht die vaak beperkt zijn tot het volledige gebit of specifieke aandoeningen.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

Het artikel introduceert UnSCAR, een schaalbaar en controleerbaar beeldherstelmodel dat door middel van een multi-branch mixture-of-experts-architectuur de interferentieproblemen bij het gezamenlijk leren van meerdere degradaties oplost en zo stabiele prestaties garandeert voor zowel bekende als onbekende vervormingen.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

Dit paper introduceert QdaVPR, een nieuw query-gebaseerd, domein-agnostisch model voor visuele plaatsherkenning dat door middel van een dubbel-niveau adversariaal leerframework en triplet-supervisie op synthetische data state-of-the-art prestaties bereikt bij aanzienlijke domeinvariaties.

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

In dit paper wordt DTPSR voorgesteld, een diffusion-based framework voor beeldsuperresolutie dat gebruikmaakt van ontkoppelde tekstuele prioren voor ruimtelijke hiërarchie en frequentie-semantiek, ondersteund door het DisText-SR-dataset, om zowel globale structuur als fijne details met hoge precisie en controleerbaarheid te genereren.

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Dit paper introduceert AndroidWorld-Generalization, een benchmark en een schaalbaar RL-trainingsysteem dat Group Relative Policy Optimization (GRPO) combineert om de generalisatie van vision-language-model agents voor mobiele apparaten te evalueren en te verbeteren, waarbij wordt aangetoond dat versterkte leerprestaties significant zijn voor onbekende taakinstanties maar nog beperkt blijven voor onbekende sjablonen en applicaties.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

Dit paper introduceert Data Agent, een end-to-end dynamisch framework dat dataselectie formuleert als een sequentieel beslissingsprobleem om training te versnellen en kosten te verlagen zonder prestatieverlies, door een adaptieve selectiebeleid te leren dat samen met de modeloptimalisatie evolueert.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

Het paper introduceert RPG-SAM, een trainingsvrij een-op-een polyp-segmentatiekader dat regionale en respons-heterogeniteit aanpakt via betrouwbaarheids-gewogen prototypen en geometrisch adaptieve drempelselectie, wat resulteert in een verbeterde nauwkeurigheid op de Kvasir-dataset.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

DogWeave is een modelgebaseerd framework dat uit één RGB-afbeelding hoogwaardige 3D-hondmodellen reconstrueert door parametrische meshen te verfijnen met diffusion-verbeterde normals en onzichtbare gebieden realistisch in te vullen via conditionele inpainting, waardoor het bestaande methoden overtreft in vormnauwkeurigheid en textuurrealisme.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

Het paper introduceert Med-Evo, het eerste zelf-evolutieframework voor medische multimodale grote taalmodellen dat labelvrije versterkingsleer toepast via Feature-driven Pseudo Labeling en Hard-Soft Reward om de prestaties te verbeteren zonder extra gelabelde data.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

Dit paper introduceert SLNet, een extreem lichtgewicht architectuur voor 3D-puntenwolkherkenning die via NAPE en GMU een hoge nauwkeurigheid bereikt met aanzienlijk minder parameters en rekencost dan bestaande modellen, terwijl het tegelijkertijd een nieuwe NetScore+-metriek voor efficiëntie presenteert.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

Dit paper biedt een uitgebreid technisch overzicht van de evolutie van beeldgeneratiemodellen, variërend van VAEs en GANs tot diffusiemodellen, inclusief hun architectuur, trainingsmethoden, beperkingen, recente doorbraken in videogenereatie en de noodzaak van verantwoord gebruik.

Rouzbeh Shirvani2026-03-10💬 cs.CL

SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing

SIGMAE is een nieuw foundation model voor multispectrale remote sensing dat door het integreren van domeinspecifieke spectrale indices in een dynamisch masking-strategie (SSDTM) tijdens het voorbewerken, superieure ruimtelijk-spectrale representaties leert en presteert op diverse downstream-taken vergeleken met bestaande modellen.

Xiaokang Zhang, Bo Li, Chufeng Zhou, Weikang Yu, Lefei Zhang2026-03-10💻 cs

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection

Deze paper introduceert MonoSTL, een selectieve transferleermethode die de negatieve effecten van het modaaliteitsverschil tussen LiDAR en camera's oplost door dieptebewuste, selectieve distillatie van features en relaties, waardoor de nauwkeurigheid van monokulaire 3D-objectdetectie aanzienlijk verbetert.

Rui Ding, Meng Yang, Nanning Zheng2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

Dit artikel introduceert het ThingiPrint-dataset en een prototype-gebaseerde classificatiemethode die, zonder hertraining, nieuwe 3D-geprinte objecten kan identificeren door gebruik te maken van hun CAD-modellen, waardoor de post-productie automatisering in de additieve fabricage wordt verbeterd.

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs

FedEU: Evidential Uncertainty-Driven Federated Fine-Tuning of Vision Foundation Models for Remote Sensing Image Segmentation

Dit paper introduceert FedEU, een federatief leerframework dat evidentiële onzekerheid en client-specifieke kenmerkembeddings gebruikt om betrouwbare en robuuste segmentatie van remote sensing-beelden te bereiken door onzekere lokale updates te identificeren en adaptief te aggregeren.

Xiaokang Zhang, Xuran Xiong, Jianzhong Huang, Lefei Zhang2026-03-10💻 cs

EVLF: Early Vision-Language Fusion for Generative Dataset Distillation

Deze paper introduceert EVLF, een plug-and-play methode voor vroege visueel-taal fusie die de dominantie van tekstuele prompts in diffusion-based dataset distillatie oplost door vroege alignering van visuele en tekstuele embeddings, wat resulteert in synthetische data met hogere semantische trouw en betere downstream classificatieprestaties.

Wenqi Cai, Yawen Zou, Guang Li, Chunzhi Gu, Chao Zhang2026-03-10💻 cs

Multi-Modal Decouple and Recouple Network for Robust 3D Object Detection

Deze paper introduceert een Multi-Modal Decouple and Recouple Network dat robuuste 3D-objectdetectie bereikt onder data-corruptie door BEV-kenmerken van camera en LiDAR expliciet te ontleden in modale-invariante en modale-specifieke componenten, die vervolgens via gespecialiseerde experts en adaptieve fusie worden hergecombineerd.

Rui Ding, Zhaonian Kuang, Yuzhe Ji, Meng Yang, Xinhu Zheng, Gang Hua2026-03-10💻 cs

← Vorige Volgende →