cs.CV papers | Gist.Science

AutoFigure-Edit: Generating Editable Scientific Illustration

AutoFigure-Edit is een end-to-end systeem dat lange wetenschappelijke teksten omzet in volledig bewerkbare en stijl-aanpasbare wetenschappelijke illustraties in SVG-formaat.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Dit artikel introduceert een hybride model dat Few-Shot Learning combineert met Explainable AI om plantenziekten bij maïs, rijst en tarwe ook bij beperkte data nauwkeurig te diagnosticeren en transparante inzichten te bieden.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Dit paper introduceert PRPO, een trainingsmethode die conflicten tussen beloningssignalen en data oplost, en MCDR-Bench, een objectieve evaluatiebenchmark, om de diepe analysecapaciteiten van LVLMs voor diagrammen systematisch te verbeteren.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Het paper introduceert MultiGen, een diffusion game engine die door het gebruik van een persistente externe geheugenmodule en een decompositie in geheugen, observatie en dynamiek, gebruikers directe controle over de wereldstructuur biedt en consistente multiplayer-interacties mogelijk maakt.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Dit paper introduceert VB, een nieuw benchmark voor visuele taalmodellen die hun vermogen test om zichtbaarheid in afbeeldingen te beoordelen en zich terug te trekken bij onzekerheid, waarbij GPT-4o en Gemini 3.1 Pro de beste prestaties laten zien.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

Dit paper introduceert RADAR, een multimodaal benchmark voor het analyseren van discrepanties in radiologierapporten door 3D-CT-beelden te koppelen aan voorlopige rapporten en voorgestelde wijzigingen, waarmee modellen worden getoetst op hun vermogen tot klinisch redeneren en beeld-taalafstemming tijdens het reviewproces.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Het artikel introduceert ECHO, een multi-agent framework dat multimedia-evenementen extrahert door iteratief een gedeelde hypergraaf te verfijnen en een 'Link-then-Bind'-strategie toe te passen om foutpropagatie te verminderen en de prestaties aanzienlijk te verbeteren ten opzichte van de huidige stand van de techniek.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Dit artikel introduceert een innovatieve 3D-beeldvormingsmethode die Structure-from-Motion-technieken en segmentatiealgoritmen combineert om met mobiele apparaten aggregaatstapels in het veld te reconstrueren en te analyseren voor kwaliteitsborging.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Deze paper introduceert TimeSpot, een benchmark met 1.455 wereldwijde beelden om de beperkte geo-temporele redeneercapaciteiten van Vision-Language-modellen te evalueren en aan te tonen dat er nieuwe methoden nodig zijn voor robuust begrip van tijd en locatie op basis van visuele data.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Dit paper introduceert "Narrative Weaver", een nieuw raamwerk dat door middel van een multimodaal taalmodel, een dynamisch geheugen en een progressieve trainingsstrategie langdurige visuele consistentie en narratieve coherentie in gegenereerde content mogelijk maakt, ondersteund door de introductie van het EAVSD-dataset voor e-commerce reclame.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Dit artikel introduceert een nieuw, onbewaakt leerframework dat convolutiefilters en neurale netwerken gebruikt om ruisige ionenstraalbeelden te reconstrueeren en zo de resolutie van straalhalo's aanzienlijk verbetert zonder trainingsdata.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Dit onderzoek toont aan dat TerraMind, een multimodale geospatiale foundation model, zonder hyperspectrale vooropleiding middels bandselectie gematigd kan worden aangepast voor downstream-taken, maar benadrukt dat native spectrale tokenisatie noodzakelijk is voor optimale prestaties.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Dit artikel introduceert een robuust one-shot detectieframework voor badmintonsloten voor mobiele robots, inclusief een nieuw dataset en een semi-automatische annotatiepijplijn, dat een YOLOv8-netwerk optimaliseert voor real-time prestaties in dynamische, egocentrische perspectieven.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

Soft Equivariance Regularization for Invariant Self-Supervised Learning

Dit artikel introduceert Soft Equivariance Regularization (SER), een plug-in regularisatiemethode die invariance en equivariantie in zelftoezichtend leren ontkoppelt door equivariantie op een tussenlaag af te dwingen, wat leidt tot verbeterde prestaties op ImageNet en robuustheid tegen geometrische verstoringen zonder extra voorspellingskoppen.

Joohyung Lee, Changhun Kim, Hyunsu Kim, Kwanhyung Lee, Juho Lee2026-03-10🤖 cs.LG

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

Deze studie introduceert HARP, een deep learning-framework dat inter-scanner variabiliteit in diffusion MRI-data effectief harmoniseert door uitsluiting op een phantom te trainen, waardoor de noodzaak voor complexe, gemaakte in-vivo multi-site cohorten wordt weggenomen.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Dit paper introduceert een methode waarbij oogvolgingsdata wordt gebruikt als supervisie voor medische vision-language modellen, waardoor deze menselijke visuele redeneerprocessen nabootsen en prestaties op radiologische taken verbeteren.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Deze studie toont aan dat asymmetrische kennisdistillatie van een grote Vision Transformer naar kleine CNN's leidt tot een ernstige dimensionale ineenstorting die de robuustheid tegen ruis fundamenteel ondermijnt, waarbij alleen extreme capaciteitsbeperkingen als robuust laagdoorlaatfilter fungeren.

Kabir Thayani2026-03-10💻 cs

Multi-label Instance-level Generalised Visual Grounding in Agriculture

Dit paper introduceert gRef-CW, het eerste dataset voor generaliseerde visuele grounding in de landbouw, en Weed-VG, een modulair framework dat de bestaande kloof tussen taal en visuele objecten in veldbeelden overbrugt door multi-label hiërarchische scoring en interpolatie-gedreven regressie.

Mohammadreza Haghighat, Alzayat Saleh, Mostafa Rahimi Azghadi2026-03-10💻 cs

SIQA: Toward Reliable Scientific Image Quality Assessment

Dit artikel introduceert SIQA, een nieuw raamwerk voor het beoordelen van de kwaliteit van wetenschappelijke afbeeldingen dat zowel perceptieve als wetenschappelijke dimensies omvat, en onthult dat multimodale modellen weliswaar consistent kunnen scoren, maar vaak tekortschieten in werkelijk wetenschappelijk begrip.

Wenzhe Li, Liang Chen, Junying Wang, Yijing Guo, Ye Shen, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai2026-03-10💻 cs

On the Generalization Capacities of MLLMs for Spatial Intelligence

Dit paper stelt dat MLLMs die alleen RGB-gegevens verwerken fundamenteel tekortschieten in ruimtelijk inzicht door camera-parameters te negeren, en introduceert daarom een camera-bewust raamwerk dat door het integreren van camera-intrinsieke parameters en data-augmentatie zorgt voor robuustere en generaliseerbare ruimtelijke redeneerfähigheden.

Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu2026-03-10🤖 cs.LG

← Vorige Volgende →