cs papers | Gist.Science

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

Dit paper introduceert FCBNet, een parameter-efficiënt convolutioneel model met een bevroren ConvNeXt-ruggengraat en een Feature Correction Block dat op multispectrale luchtfoto's een hogere nauwkeurigheid en trainings-efficiëntie bereikt dan bestaande methoden voor onkruiddetectie.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

Dit paper introduceert GameVerse, een benchmark die aantoont dat Vision-Language-modellen hun spelstrategieën kunnen verbeteren door video-gebaseerde reflectie op fouten en experttutorials te combineren in een reflecteer-en-probeer-opnieuw-paradigma.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

Deze paper introduceert ASMIL, een nieuw raamwerk voor multiple instance learning dat door het gebruik van een ankermodel, een genormaliseerde sigmoid-functie en willekeurige token-dropping de instabiele attentiedynamiek, overfitting en te geconcentreerde verdelingen in de diagnose van hele slide-afbeeldingen effectief aanpakt en aanzienlijk betere prestaties levert dan bestaande methoden.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

Dit hoofdstuk onderzoekt hoe generatieve kunstmatige intelligentie kan fungeren als een katalysator voor coherentie in het onderwijs, de leerprocessen en de beoordeling van wetenschappelijke geletterdheid op K-16+ niveau, terwijl het ook de conceptuele en praktische uitdagingen en de noodzakelijke architectuur voor implementatie belicht.

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

Het paper introduceert Graph-of-Mark (GoM), een nieuwe pixel-level visuele prompting-techniek die scene graphs overlayt op afbeeldingen om de ruimtelijke redeneercapaciteiten van multimodale taalmodellen aanzienlijk te verbeteren door objectrelaties in plaats van geïsoleerde objecten te benadrukken.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Dit paper introduceert een geoptimaliseerde inferentiepijplijn voor video-generatie met Diffusion Transformers, die door middel van sequentieel-parallelle 3D-positional encoding en een globale tijdsindex de geheugenconsumptie en latentie aanzienlijk verlaagt, waardoor bijna real-time generatie van lange video's mogelijk wordt.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Dit onderzoek toont aan dat Chain-of-Thought-prompting in medische visuele vraagbeantwoording vaak slechter presteert dan directe antwoorden door een perceptieknelpunt, maar dat dit probleem kan worden opgelost door training-vrije interventies die de visuele gronding verbeteren.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Dit paper introduceert SJD-PV, een trainingsvrij versnellingsframework voor autoregressieve beeldgeneratie dat de inferentielatentie met tot 30% verlaagt door het gebruik van semantisch coherente visuele zinsdelen voor gezamenlijke verificatie in plaats van onafhankelijke token-verificatie.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Demonstration of a 1.2 Gbps Always-on Fully-Connected Mesh Network with RFSoC SDRs

Dit artikel beschrijft de implementatie van een volledig verbonden mesh-netwerk van vier drones op RFSoC-SDRs die real-time 4K-videostreaming over twaalf altijd-aanstaande MIMO-links met een totale doorvoersnelheid van 1,2 Gbps mogelijk maakt.

Hatef Nouri, George Sklivanitis, Dimitris A. Pados, Elizabeth Serena Bentley2026-03-10💻 cs

SDN-SYN PoW: Intent-Aware Adaptive SDN Defense with PoW Against multi-domain SYN Floods

Dit paper introduceert SDN-SYN PoW, een adaptief verdedigingsarchitectuur die Software-Defined Networking combineert met bewijs van werk om multi-domein SYN-floods effectief te mitigeren door de rekenlast dynamisch aan te passen aan verdachte bronnen terwijl legitieme verkeer nauwelijks wordt beïnvloed.

Wenyang Jia2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

Dit artikel introduceert SIL-GPO, een op versterkingslering gebaseerd framework dat graph attention networks en zelf-imitatielering combineert om de hybride orkestratie van edge AI en microservices te optimaliseren, waardoor de eind-tot-eind latentie aanzienlijk wordt verlaagd en de resourcebenutting in resource-beperkte randomgevingen wordt verbeterd.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Het paper introduceert CalibFusion, een transformer-gebaseerde detector die end-to-end differentieerbare extrinsieke kalibratie leert om de prestaties van radar-camera fusie voor objectdetectie in wateromgevingen te verbeteren, waar traditionele kalibratiemethoden door gebrek aan structurele kenmerken vaak falen.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Deze studie concludeert dat semantische ruisinitialisatie, hoewel het in beeldmodellen succesvol is, geen statistisch significante verbetering biedt voor tekst-naar-video-generatie en daarom geen overtuigend voordeel biedt ten opzichte van standaard Gaussische ruis.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

AutoFigure-Edit is een end-to-end systeem dat lange wetenschappelijke teksten omzet in volledig bewerkbare en stijl-aanpasbare wetenschappelijke illustraties in SVG-formaat.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Het paper introduceert MultiGen, een diffusion game engine die door het gebruik van een persistente externe geheugenmodule en een decompositie in geheugen, observatie en dynamiek, gebruikers directe controle over de wereldstructuur biedt en consistente multiplayer-interacties mogelijk maakt.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Dit paper introduceert VB, een nieuw benchmark voor visuele taalmodellen die hun vermogen test om zichtbaarheid in afbeeldingen te beoordelen en zich terug te trekken bij onzekerheid, waarbij GPT-4o en Gemini 3.1 Pro de beste prestaties laten zien.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

Dit paper introduceert RADAR, een multimodaal benchmark voor het analyseren van discrepanties in radiologierapporten door 3D-CT-beelden te koppelen aan voorlopige rapporten en voorgestelde wijzigingen, waarmee modellen worden getoetst op hun vermogen tot klinisch redeneren en beeld-taalafstemming tijdens het reviewproces.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Het artikel introduceert ECHO, een multi-agent framework dat multimedia-evenementen extrahert door iteratief een gedeelde hypergraaf te verfijnen en een 'Link-then-Bind'-strategie toe te passen om foutpropagatie te verminderen en de prestaties aanzienlijk te verbeteren ten opzichte van de huidige stand van de techniek.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Dit artikel introduceert een innovatieve 3D-beeldvormingsmethode die Structure-from-Motion-technieken en segmentatiealgoritmen combineert om met mobiele apparaten aggregaatstapels in het veld te reconstrueren en te analyseren voor kwaliteitsborging.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Dit paper introduceert "Narrative Weaver", een nieuw raamwerk dat door middel van een multimodaal taalmodel, een dynamisch geheugen en een progressieve trainingsstrategie langdurige visuele consistentie en narratieve coherentie in gegenereerde content mogelijk maakt, ondersteund door de introductie van het EAVSD-dataset voor e-commerce reclame.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

← Vorige Volgende →