cs.CV papers | Gist.Science

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Dit paper introduceert OddGridBench, een nieuwe benchmark die aantoont dat multimodale grote taalmodellen tekortschieten in het detecteren van fijne visuele verschillen, en stelt OddGrid-GRPO voor, een versterkingsleerframework dat deze vaardigheid aanzienlijk verbetert.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Dit paper introduceert de STAR-benchmark, een multi-agent evaluatiekader dat het strategische redeneren en snelle besluitvorming van grote taalmodellen in nul-som omgevingen test, waarbij een significante kloof wordt blootgelegd tussen diep redeneren en effectieve uitvoering onder tijdsdruk.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

Dit paper introduceert Predictive Spectral Calibration (PSC), een bronvrij framework dat bestaande subspace-alignment-methoden voor testtijd-adaptatie in beeldregressie uitbreidt door blokspectrale matching toe te passen, wat leidt tot consistente prestatieverbeteringen onder zware distributieveranderingen.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy Hieu2026-03-11💻 cs

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Deze paper introduceert een robuust en wiskundig bewezen veilig beeldsteganografisch kader dat via iteratieve optimalisatie in de latentruimte de extractie van berichten verbetert zonder de beveiliging te verstoren.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen Ren2026-03-11💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

Dit artikel introduceert EPPINN, een nieuw raamwerk dat bewijskrachtig diep leren combineert met physics-informed neural networks om de nauwkeurigheid en betrouwbaarheid van perfusieparameter-schattingen bij acute ischemische beroertes te verbeteren door zowel aleatorische als epistemische onzekerheid te kwantificeren zonder Bayesiaanse steekproeven.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Dit paper introduceert M3GCLR, een speltheoretisch contrastief leerframework dat een oneindig skelet-data-spel en een dual-loss optimizer gebruikt om de beperkingen van bestaande zelftoezichtmethoden voor skeletgebaseerde actieherkenning te overwinnen en state-of-the-art prestaties op meerdere benchmarks te bereiken.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Deze paper introduceert MIL-PF, een schaalbaar framework dat voorgecomputeerde features van gefixeerde foundation-modellen combineert met een lichtgewicht Multiple Instance Learning-kop om mammografie-classificatie efficiënt en nauwkeurig te maken zonder de zware backbones opnieuw te hoeven trainen.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

SinGeo is een innovatief raamwerk dat een enkel model in staat stelt om robuuste cross-view geo-localisatie te bereiken door middel van een dubbel discriminatief leerproces en curriculum learning, waardoor het de huidige state-of-the-art prestaties overtreft en de noodzaak voor meerdere modellen elimineert.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao Wu2026-03-11💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

Het artikel introduceert EventVGGT, een nieuw raamwerk dat voor het eerst ruimtelijk-temporele en multi-view geometrische prioren distilleert vanuit de Visual Geometry Grounded Transformer (VGGT) naar het event-domein via een drievoudige distillatiestrategie, waardoor de temporele consistentie en nauwkeurigheid van monocular event-based diepteschatting aanzienlijk wordt verbeterd.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

Dit paper introduceert MIDAS, een trainingsvrij diffusion-gebaseerd raamwerk voor coverless steganografie dat via latente fusie en een willekeurige basis-mechanisme veilige toegang tot meerdere verborgen afbeeldingen mogelijk maakt voor specifieke gebruikers.

Minyeol Bae, Si-Hyeon Lee2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Dit rapport presenteert de ICDAR 2025 competitie voor end-to-end machinevertaling van documentafbeeldingen met complexe lay-outs, waarbij 69 teams deelnamen aan twee tracks (OCR-vrij en OCR-gebaseerd) en de resultaten aantonen dat grote modellen een veelbelovend paradigma vormen voor dit domein.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

Dit paper introduceert YOLO-NAS-Bench, het eerste surrogaat-benchmark voor YOLO-architectuuroptimalisatie, dat een zelfevoluerend voorspellermechanisme gebruikt om de evaluatiekosten drastisch te verlagen en tegelijkertijd superieure detectiearchitecturen te ontdekken die de officiële YOLO-baselines overtreffen.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Dit paper introduceert FCDM, een volledig convolutiegebaseerd diffusiemodel dat ConvNeXt herintroduceert als een uiterst efficiënt alternatief voor Transformer-architecturen, waarbij het met slechts 50% van de FLOPs en aanzienlijk minder trainingsstappen vergelijkbare prestaties levert.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

Dit paper introduceert RiO-DETR, de eerste real-time DETR-architectuur voor georiënteerde objectdetectie die specifieke uitdagingen zoals hoekperiodiciteit en convergentie oplost door middel van nieuwe ontwerpen zoals content-gedreven hoekschatting en ontkoppelde periodieke verfijning, waardoor een nieuwe snelheid-nauwkeurigheidswisselwerking wordt bereikt.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Dit paper introduceert PromptDLA, een domeinbewust raamwerk voor documentlay-outanalyse dat beschrijvende kennis gebruikt als aanwijzingen om domeinspecifieke priors te integreren en zo de generalisatie en prestaties op diverse datasets te verbeteren.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

CIGPose introduceert een causaal interventie-gebaseerd grafisch neurale netwerk dat spurious correlaties in visuele contexten elimineert door verstorende sleutelpunten te vervangen, wat resulteert in robuustere en anatomisch plausibele hele-lichaamshoudingsschattingen die een nieuwe staat van de kunst bereiken op de COCO-WholeBody-benchmarks.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming Guo2026-03-11💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

Het paper introduceert MetaDAT, een methode die meta-lering en data-adaptieve testtijd-update gebruikt om de prestaties van trajectvoorspelling bij distributieveranderingen te verbeteren door online leersnelheden dynamisch aan te passen en zich te richten op informatieve moeilijke samples.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru Xue2026-03-11💻 cs

Open-World Motion Forecasting

Dit paper introduceert 'open-world motion forecasting', een nieuw kader dat autonome voertuigen in staat stelt om continu nieuwe objectklassen te leren en hun bewegingen te voorspellen vanuit camera-beelden zonder vergeten van eerder geleerde kennis, door middel van een end-to-end class-incremental framework met pseudo-labeling en een innovatieve replay-samplingstrategie.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

Dit paper introduceert GIIM, een nieuw grafgebaseerd leermodel dat inter- en intraview-afhankelijkheden in medische beelden modelleert om de diagnosenauwkeurigheid en robuustheid, zelfs bij ontbrekende data, te verbeteren.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Dit paper introduceert OncoAgent, een nieuw AI-agentkader dat klinische richtlijnen direct omzet in 3D-stralingsvolumes zonder training, waardoor het in een zero-shot setting presteert die vergelijkbaar is met toezichtmodellen en door artsen wordt geprefereerd vanwege zijn superioriteit in richtlijncompliance en aanpasbaarheid.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

← Vorige Volgende →