cs.CV papers | Gist.Science

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Het paper introduceert Graph-of-Mark (GoM), een nieuwe pixel-level visuele prompting-techniek die scene graphs overlayt op afbeeldingen om de ruimtelijke redeneercapaciteiten van multimodale taalmodellen aanzienlijk te verbeteren door objectrelaties in plaats van geïsoleerde objecten te benadrukken.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Dit paper introduceert een geoptimaliseerde inferentiepijplijn voor video-generatie met Diffusion Transformers, die door middel van sequentieel-parallelle 3D-positional encoding en een globale tijdsindex de geheugenconsumptie en latentie aanzienlijk verlaagt, waardoor bijna real-time generatie van lange video's mogelijk wordt.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Dit onderzoek toont aan dat Chain-of-Thought-prompting in medische visuele vraagbeantwoording vaak slechter presteert dan directe antwoorden door een perceptieknelpunt, maar dat dit probleem kan worden opgelost door training-vrije interventies die de visuele gronding verbeteren.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Dit paper introduceert SJD-PV, een trainingsvrij versnellingsframework voor autoregressieve beeldgeneratie dat de inferentielatentie met tot 30% verlaagt door het gebruik van semantisch coherente visuele zinsdelen voor gezamenlijke verificatie in plaats van onafhankelijke token-verificatie.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Het paper introduceert CalibFusion, een transformer-gebaseerde detector die end-to-end differentieerbare extrinsieke kalibratie leert om de prestaties van radar-camera fusie voor objectdetectie in wateromgevingen te verbeteren, waar traditionele kalibratiemethoden door gebrek aan structurele kenmerken vaak falen.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Deze studie concludeert dat semantische ruisinitialisatie, hoewel het in beeldmodellen succesvol is, geen statistisch significante verbetering biedt voor tekst-naar-video-generatie en daarom geen overtuigend voordeel biedt ten opzichte van standaard Gaussische ruis.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

Unmixing microinfrared spectroscopic images of cross-sections of historical oil paintings

De auteurs presenteren een onbewaakte CNN-autoencoder met een gewogen spectrale hoekafstand (WSAD) voor het automatisch ontwarren van micro-IR spectroscopische beelden van historische olieverfschilderingen, zoals de Ghentse Altaarstuk, om de interpretatie van complexe materiaalmengsels te versnellen en te objectiveren.

Shivam Pande, Nicolas Nadisic, Francisco Mederos-Henry, Aleksandra Pizurica2026-03-10🤖 cs.LG

AutoFigure-Edit: Generating Editable Scientific Illustration

AutoFigure-Edit is een end-to-end systeem dat lange wetenschappelijke teksten omzet in volledig bewerkbare en stijl-aanpasbare wetenschappelijke illustraties in SVG-formaat.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

XAI and Few-shot-based Hybrid Classification Model for Plant Leaf Disease Prognosis

Dit artikel introduceert een hybride model dat Few-Shot Learning combineert met Explainable AI om plantenziekten bij maïs, rijst en tarwe ook bij beperkte data nauwkeurig te diagnosticeren en transparante inzichten te bieden.

Diana Susan Joseph, Pranav M Pawar, Raja Muthalagu, Mithun Mukharjee2026-03-10🤖 cs.LG

Chart Deep Research in LVLMs via Parallel Relative Policy Optimization

Dit paper introduceert PRPO, een trainingsmethode die conflicten tussen beloningssignalen en data oplost, en MCDR-Bench, een objectieve evaluatiebenchmark, om de diepe analysecapaciteiten van LVLMs voor diagrammen systematisch te verbeteren.

Jiajin Tang, Gaoyang, Wenjie Wang, Sibei Yang, Xing Chen2026-03-10🤖 cs.LG

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Het paper introduceert MultiGen, een diffusion game engine die door het gebruik van een persistente externe geheugenmodule en een decompositie in geheugen, observatie en dynamiek, gebruikers directe controle over de wereldstructuur biedt en consistente multiplayer-interacties mogelijk maakt.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Dit paper introduceert VB, een nieuw benchmark voor visuele taalmodellen die hun vermogen test om zichtbaarheid in afbeeldingen te beoordelen en zich terug te trekken bij onzekerheid, waarbij GPT-4o en Gemini 3.1 Pro de beste prestaties laten zien.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

Dit paper introduceert RADAR, een multimodaal benchmark voor het analyseren van discrepanties in radiologierapporten door 3D-CT-beelden te koppelen aan voorlopige rapporten en voorgestelde wijzigingen, waarmee modellen worden getoetst op hun vermogen tot klinisch redeneren en beeld-taalafstemming tijdens het reviewproces.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Het artikel introduceert ECHO, een multi-agent framework dat multimedia-evenementen extrahert door iteratief een gedeelde hypergraaf te verfijnen en een 'Link-then-Bind'-strategie toe te passen om foutpropagatie te verminderen en de prestaties aanzienlijk te verbeteren ten opzichte van de huidige stand van de techniek.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Dit artikel introduceert een innovatieve 3D-beeldvormingsmethode die Structure-from-Motion-technieken en segmentatiealgoritmen combineert om met mobiele apparaten aggregaatstapels in het veld te reconstrueren en te analyseren voor kwaliteitsborging.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

TimeSpot: Benchmarking Geo-Temporal Understanding in Vision-Language Models in Real-World Settings

Deze paper introduceert TimeSpot, een benchmark met 1.455 wereldwijde beelden om de beperkte geo-temporele redeneercapaciteiten van Vision-Language-modellen te evalueren en aan te tonen dat er nieuwe methoden nodig zijn voor robuust begrip van tijd en locatie op basis van visuele data.

Azmine Toushik Wasi, Shahriyar Zaman Ridoy, Koushik Ahamed Tonmoy, Kinga Tshering, S. M. Muhtasimul Hasan, Wahid Faisal, Tasnim Mohiuddin, Md Rizwan Parvez2026-03-10💬 cs.CL

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Dit paper introduceert "Narrative Weaver", een nieuw raamwerk dat door middel van een multimodaal taalmodel, een dynamisch geheugen en een progressieve trainingsstrategie langdurige visuele consistentie en narratieve coherentie in gegenereerde content mogelijk maakt, ondersteund door de introductie van het EAVSD-dataset voor e-commerce reclame.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

High-Resolution Image Reconstruction with Unsupervised Learning and Noisy Data Applied to Ion-Beam Dynamics for Particle Accelerators

Dit artikel introduceert een nieuw, onbewaakt leerframework dat convolutiefilters en neurale netwerken gebruikt om ruisige ionenstraalbeelden te reconstrueeren en zo de resolutie van straalhalo's aanzienlijk verbetert zonder trainingsdata.

Francis Osswald (IPHC), Mohammed Chahbaoui (UNISTRA), Xinyi Liang (SU)2026-03-10🤖 cs.LG

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Dit onderzoek toont aan dat TerraMind, een multimodale geospatiale foundation model, zonder hyperspectrale vooropleiding middels bandselectie gematigd kan worden aangepast voor downstream-taken, maar benadrukt dat native spectrale tokenisatie noodzakelijk is voor optimale prestaties.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Dit artikel introduceert een robuust one-shot detectieframework voor badmintonsloten voor mobiele robots, inclusief een nieuw dataset en een semi-automatische annotatiepijplijn, dat een YOLOv8-netwerk optimaliseert voor real-time prestaties in dynamische, egocentrische perspectieven.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

← Vorige Volgende →