cs papers | Gist.Science

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Dit paper introduceert een geoptimaliseerde inferentiepijplijn voor video-generatie met Diffusion Transformers, die door middel van sequentieel-parallelle 3D-positional encoding en een globale tijdsindex de geheugenconsumptie en latentie aanzienlijk verlaagt, waardoor bijna real-time generatie van lange video's mogelijk wordt.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

Dit onderzoek toont aan dat Chain-of-Thought-prompting in medische visuele vraagbeantwoording vaak slechter presteert dan directe antwoorden door een perceptieknelpunt, maar dat dit probleem kan worden opgelost door training-vrije interventies die de visuele gronding verbeteren.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

Dit paper introduceert SJD-PV, een trainingsvrij versnellingsframework voor autoregressieve beeldgeneratie dat de inferentielatentie met tot 30% verlaagt door het gebruik van semantisch coherente visuele zinsdelen voor gezamenlijke verificatie in plaats van onafhankelijke token-verificatie.

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Demonstration of a 1.2 Gbps Always-on Fully-Connected Mesh Network with RFSoC SDRs

Dit artikel beschrijft de implementatie van een volledig verbonden mesh-netwerk van vier drones op RFSoC-SDRs die real-time 4K-videostreaming over twaalf altijd-aanstaande MIMO-links met een totale doorvoersnelheid van 1,2 Gbps mogelijk maakt.

Hatef Nouri, George Sklivanitis, Dimitris A. Pados, Elizabeth Serena Bentley2026-03-10💻 cs

SDN-SYN PoW: Intent-Aware Adaptive SDN Defense with PoW Against multi-domain SYN Floods

Dit paper introduceert SDN-SYN PoW, een adaptief verdedigingsarchitectuur die Software-Defined Networking combineert met bewijs van werk om multi-domein SYN-floods effectief te mitigeren door de rekenlast dynamisch aan te passen aan verdachte bronnen terwijl legitieme verkeer nauwelijks wordt beïnvloed.

Wenyang Jia2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

Dit artikel introduceert SIL-GPO, een op versterkingslering gebaseerd framework dat graph attention networks en zelf-imitatielering combineert om de hybride orkestratie van edge AI en microservices te optimaliseren, waardoor de eind-tot-eind latentie aanzienlijk wordt verlaagd en de resourcebenutting in resource-beperkte randomgevingen wordt verbeterd.

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

Het paper introduceert CalibFusion, een transformer-gebaseerde detector die end-to-end differentieerbare extrinsieke kalibratie leert om de prestaties van radar-camera fusie voor objectdetectie in wateromgevingen te verbeteren, waar traditionele kalibratiemethoden door gebrek aan structurele kenmerken vaak falen.

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

Does Semantic Noise Initialization Transfer from Images to Videos? A Paired Diagnostic Study

Deze studie concludeert dat semantische ruisinitialisatie, hoewel het in beeldmodellen succesvol is, geen statistisch significante verbetering biedt voor tekst-naar-video-generatie en daarom geen overtuigend voordeel biedt ten opzichte van standaard Gaussische ruis.

Yixiao Jing, Chaoyu Zhang, Zixuan Zhong, Peizhou Huang2026-03-10💻 cs

AutoFigure-Edit: Generating Editable Scientific Illustration

AutoFigure-Edit is een end-to-end systeem dat lange wetenschappelijke teksten omzet in volledig bewerkbare en stijl-aanpasbare wetenschappelijke illustraties in SVG-formaat.

Zhen Lin, Qiujie Xie, Minjun Zhu, Shichen Li, Qiyao Sun, Enhao Gu, Yiran Ding, Ke Sun, Fang Guo, Panzhong Lu, Zhiyuan Ning, Yixuan Weng, Yue Zhang2026-03-10💻 cs

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines

Het paper introduceert MultiGen, een diffusion game engine die door het gebruik van een persistente externe geheugenmodule en een decompositie in geheugen, observatie en dynamiek, gebruikers directe controle over de wereldstructuur biedt en consistente multiplayer-interacties mogelijk maakt.

Ryan Po, David Junhao Zhang, Amir Hertz, Gordon Wetzstein, Neal Wadhwa, Nataniel Ruiz2026-03-10💻 cs

VB: Visibility Benchmark for Visibility and Perspective Reasoning in Images

Dit paper introduceert VB, een nieuw benchmark voor visuele taalmodellen die hun vermogen test om zichtbaarheid in afbeeldingen te beoordelen en zich terug te trekken bij onzekerheid, waarbij GPT-4o en Gemini 3.1 Pro de beste prestaties laten zien.

Neil Tripathi2026-03-10💻 cs

RADAR: A Multimodal Benchmark for 3D Image-Based Radiology Report Review

Dit paper introduceert RADAR, een multimodaal benchmark voor het analyseren van discrepanties in radiologierapporten door 3D-CT-beelden te koppelen aan voorlopige rapporten en voorgestelde wijzigingen, waarmee modellen worden getoetst op hun vermogen tot klinisch redeneren en beeld-taalafstemming tijdens het reviewproces.

Zhaoyi Sun, Minal Jagtiani, Wen-wai Yim, Fei Xia, Martin Gunn, Meliha Yetisgen, Asma Ben Abacha2026-03-10💻 cs

ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction

Het artikel introduceert ECHO, een multi-agent framework dat multimedia-evenementen extrahert door iteratief een gedeelde hypergraaf te verfijnen en een 'Link-then-Bind'-strategie toe te passen om foutpropagatie te verminderen en de prestaties aanzienlijk te verbeteren ten opzichte van de huidige stand van de techniek.

Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li2026-03-10💻 cs

Three-dimensional reconstruction and segmentation of an aggregate stockpile for size and shape analyses

Dit artikel introduceert een innovatieve 3D-beeldvormingsmethode die Structure-from-Motion-technieken en segmentatiealgoritmen combineert om met mobiele apparaten aggregaatstapels in het veld te reconstrueren en te analyseren voor kwaliteitsborging.

Erol Tutumluer, Haohang Huang, Jiayi Luo, Issam Qamhia, John M. Hart2026-03-10💻 cs

Narrative Weaver: Towards Controllable Long-Range Visual Consistency with Multi-Modal Conditioning

Dit paper introduceert "Narrative Weaver", een nieuw raamwerk dat door middel van een multimodaal taalmodel, een dynamisch geheugen en een progressieve trainingsstrategie langdurige visuele consistentie en narratieve coherentie in gegenereerde content mogelijk maakt, ondersteund door de introductie van het EAVSD-dataset voor e-commerce reclame.

Zhengjian Yao, Yongzhi Li, Xinyuan Gao, Quan Chen, Peng Jiang, Yanye Lu2026-03-10💻 cs

Spectral Gaps and Spatial Priors: Studying Hyperspectral Downstream Adaptation Using TerraMind

Dit onderzoek toont aan dat TerraMind, een multimodale geospatiale foundation model, zonder hyperspectrale vooropleiding middels bandselectie gematigd kan worden aangepast voor downstream-taken, maar benadrukt dat native spectrale tokenisatie noodzakelijk is voor optimale prestaties.

Julia Anna Leonardi, Johannes Jakubik, Paolo Fraccaro, Maria Antonia Brovelli2026-03-10💻 cs

One-Shot Badminton Shuttle Detection for Mobile Robots

Dit artikel introduceert een robuust one-shot detectieframework voor badmintonsloten voor mobiele robots, inclusief een nieuw dataset en een semi-automatische annotatiepijplijn, dat een YOLOv8-netwerk optimaliseert voor real-time prestaties in dynamische, egocentrische perspectieven.

Florentin Dipner, William Talbot, Turcan Tuna, Andrei Cramariuc, Marco Hutter2026-03-10💻 cs

HARP: HARmonizing in-vivo diffusion MRI using Phantom-only training

Deze studie introduceert HARP, een deep learning-framework dat inter-scanner variabiliteit in diffusion MRI-data effectief harmoniseert door uitsluiting op een phantom te trainen, waardoor de noodzaak voor complexe, gemaakte in-vivo multi-site cohorten wordt weggenomen.

Hwihun Jeong, Qiang Liu, Kathryn E. Keenan, Elisabeth A. Wilde, Walter Schneider, Sudhir Pathak, Anthony Zuccolotto, Lauren J. O'Donnell, Lipeng Ning, Yogesh Rathi2026-03-10💻 cs

Thinking with Gaze: Sequential Eye-Tracking as Visual Reasoning Supervision for Medical VLMs

Dit paper introduceert een methode waarbij oogvolgingsdata wordt gebruikt als supervisie voor medische vision-language modellen, waardoor deze menselijke visuele redeneerprocessen nabootsen en prestaties op radiologische taken verbeteren.

Yiwei Li, Zihao Wu, Yanjun Lv, Hanqi Jiang, Weihang You, Zhengliang Liu, Dajiang Zhu, Xiang Li, Quanzheng Li, Tianming Liu, Lin Zhao2026-03-10💻 cs

Asymmetric Distillation and Information Retention in Capacity-Constrained Cross-Modal Transfer

Deze studie toont aan dat asymmetrische kennisdistillatie van een grote Vision Transformer naar kleine CNN's leidt tot een ernstige dimensionale ineenstorting die de robuustheid tegen ruis fundamenteel ondermijnt, waarbij alleen extreme capaciteitsbeperkingen als robuust laagdoorlaatfilter fungeren.

Kabir Thayani2026-03-10💻 cs

← Vorige Volgende →