cs.CV papers | Gist.Science

Training-Free Coverless Multi-Image Steganography with Access Control

Dit paper introduceert MIDAS, een trainingsvrij diffusion-gebaseerd raamwerk voor coverless steganografie dat via latente fusie en een willekeurige basis-mechanisme veilige toegang tot meerdere verborgen afbeeldingen mogelijk maakt voor specifieke gebruikers.

Minyeol Bae, Si-Hyeon Lee2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Dit rapport presenteert de ICDAR 2025 competitie voor end-to-end machinevertaling van documentafbeeldingen met complexe lay-outs, waarbij 69 teams deelnamen aan twee tracks (OCR-vrij en OCR-gebaseerd) en de resultaten aantonen dat grote modellen een veelbelovend paradigma vormen voor dit domein.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

Dit paper introduceert YOLO-NAS-Bench, het eerste surrogaat-benchmark voor YOLO-architectuuroptimalisatie, dat een zelfevoluerend voorspellermechanisme gebruikt om de evaluatiekosten drastisch te verlagen en tegelijkertijd superieure detectiearchitecturen te ontdekken die de officiële YOLO-baselines overtreffen.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Dit paper introduceert FCDM, een volledig convolutiegebaseerd diffusiemodel dat ConvNeXt herintroduceert als een uiterst efficiënt alternatief voor Transformer-architecturen, waarbij het met slechts 50% van de FLOPs en aanzienlijk minder trainingsstappen vergelijkbare prestaties levert.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

Dit paper introduceert RiO-DETR, de eerste real-time DETR-architectuur voor georiënteerde objectdetectie die specifieke uitdagingen zoals hoekperiodiciteit en convergentie oplost door middel van nieuwe ontwerpen zoals content-gedreven hoekschatting en ontkoppelde periodieke verfijning, waardoor een nieuwe snelheid-nauwkeurigheidswisselwerking wordt bereikt.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Dit paper introduceert PromptDLA, een domeinbewust raamwerk voor documentlay-outanalyse dat beschrijvende kennis gebruikt als aanwijzingen om domeinspecifieke priors te integreren en zo de generalisatie en prestaties op diverse datasets te verbeteren.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

CIGPose introduceert een causaal interventie-gebaseerd grafisch neurale netwerk dat spurious correlaties in visuele contexten elimineert door verstorende sleutelpunten te vervangen, wat resulteert in robuustere en anatomisch plausibele hele-lichaamshoudingsschattingen die een nieuwe staat van de kunst bereiken op de COCO-WholeBody-benchmarks.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming Guo2026-03-11💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

Het paper introduceert MetaDAT, een methode die meta-lering en data-adaptieve testtijd-update gebruikt om de prestaties van trajectvoorspelling bij distributieveranderingen te verbeteren door online leersnelheden dynamisch aan te passen en zich te richten op informatieve moeilijke samples.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru Xue2026-03-11💻 cs

Open-World Motion Forecasting

Dit paper introduceert 'open-world motion forecasting', een nieuw kader dat autonome voertuigen in staat stelt om continu nieuwe objectklassen te leren en hun bewegingen te voorspellen vanuit camera-beelden zonder vergeten van eerder geleerde kennis, door middel van een end-to-end class-incremental framework met pseudo-labeling en een innovatieve replay-samplingstrategie.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

Dit paper introduceert GIIM, een nieuw grafgebaseerd leermodel dat inter- en intraview-afhankelijkheden in medische beelden modelleert om de diagnosenauwkeurigheid en robuustheid, zelfs bij ontbrekende data, te verbeteren.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Dit paper introduceert OncoAgent, een nieuw AI-agentkader dat klinische richtlijnen direct omzet in 3D-stralingsvolumes zonder training, waardoor het in een zero-shot setting presteert die vergelijkbaar is met toezichtmodellen en door artsen wordt geprefereerd vanwege zijn superioriteit in richtlijncompliance en aanpasbaarheid.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

EvoDriveVLA is een nieuw kader voor autonoom rijden dat de prestaties van Vision-Language-Action-modellen verbetert door een collaboratieve distillatie van waarneming en planning te gebruiken, wat leidt tot state-of-the-art resultaten in zowel open- als gesloten-lus evaluaties.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

TopoOR introduceert een nieuw paradigma voor het modelleren van operatiekamers als een hogere-orde topologische structuur die complexe relaties en multimodale data behoudt, waardoor het traditionele scene graphs overtreft in taken zoals het detecteren van steriliteitsbreuken en het voorspellen van robotacties.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Dit artikel introduceert het Patrologia Graeca Corpus, een groot openbaar bron met geoptimaliseerde OCR- en taalkundige annotaties voor de overige ongedigitaliseerde negentiende-eeuwse edities van het Patrologia Graeca, waarbij een nieuwe pipeline met YOLO en CRNN een recordlaag foutpercentage voor polytonisch Grieks bereikt.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Dit paper introduceert OmniEarth, een nieuw benchmark voor het systematisch evalueren van vision-language modellen in aardobservatie, dat 28 taken omvat over perceptie, redenering en robuustheid om de huidige beperkingen van bestaande modellen in complexe geospatiale scenario's in kaart te brengen.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Dit paper introduceert PruneSID, een trainingsvrije methode die redundantie in visuele tokens van Vision-Language Models efficiënt elimineert door belang en diversiteit synergetisch te benutten, waardoor de prestaties worden behouden en de verwerkingssnelheid aanzienlijk wordt verhoogd.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Deze paper introduceert een componentbewust, zelfrefinerend raamwerk voor het genereren van fotorealistische afbeeldingen uit schetsen, dat via een tweestapsarchitectuur met zelfaandacht-codering en coördinatiebehoudende fusie aanzienlijk betere resultaten boekt dan bestaande GAN- en diffusiemodellen op diverse datasets.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz Qureshi2026-03-11💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Deze paper introduceert Diagonal Distillation, een methode die autoregressieve videogeneratie versnelt tot 31 FPS door een asymmetrische strategie te gebruiken die temporale context optimaliseert en foutpropagatie in lange sequenties vermindert.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu2026-03-11💻 cs

Evolving Prompt Adaptation for Vision-Language Models

Het artikel introduceert EvoPrompt, een nieuw raamwerk dat de adaptatie van vision-language modellen naar downstream-taken verbetert door een evolutionaire trainingsstrategie en geometrische regularisatie te gebruiken om prestaties te maximaliseren zonder de oorspronkelijke zero-shot-kennis te verliezen.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li2026-03-11🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Dit paper introduceert SurgFed, een taalgeleid multi-task federated learning-framework dat de uitdagingen van weefsel- en taakdiversiteit in chirurgische video's aanpakt via taalgestuurde kanaalselectie en hyperaggregatie, wat resulteert in superieure prestaties voor segmentatie en diepteschatten op meerdere datasets.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming Jin2026-03-11💻 cs

← Vorige Volgende →