cs.CV papers | Gist.Science

ACCURATE: Arbitrary-shaped Continuum Reconstruction Under Robust Adaptive Two-view Estimation

Dit paper introduceert ACCURATE, een robuust 3D-reconstructieframework dat een segmentatie-neuraal netwerk combineert met een geometrie-gedwongen topologietraversie en dynamisch programmeren om de nauwkeurige reconstructie van willekeurig gevormde, langwerpige continuumbogen, zoals gidsdraden en katheters, mogelijk te maken onder klinische X-ray C-arm-systemen.

Yaozhi Zhang, Shun Yu, Yugang Zhang, Yang Liu2026-03-10💻 cs

Scale-Aware UAV-to-Satellite Cross-View Geo-Localization: A Semantic Geometric Approach

Deze paper introduceert een semantisch-geometrisch raamwerk dat de absolute schaal van UAV-beelden schat met behulp van voertuigen als referentie, waardoor de robuustheid van cross-view geo-localisatie tussen UAV- en satellietbeelden aanzienlijk wordt verbeterd door schaalconsistentie te herstellen.

Yibin Ye, Shuo Chen, Kun Wang, Xiaokai Song, Jisheng Dang, Qifeng Yu, Xichao Teng, Zhang Li2026-03-10💻 cs

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Dit paper introduceert UniLongGen, een trainingsvrije inferentiestrategie die de betrouwbaarheid van langdurige, interleaved beeldgeneratie in unified multimodale modellen verbetert door dynamisch irrelevante visuele informatie te verwijderen en zo de ophoping van visuele vervuiling te voorkomen.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization

CONSTANT is een nieuwe methode voor één-op-een handschriftdirectie die gebruikmaakt van een diffusion-model met patch-contrastversterking en stijl-bewuste kwantisatie om realistische en gedetailleerde handschriftdoelen te genereren die zich aanpassen aan complexe schrijfstijlen.

Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran2026-03-10💻 cs

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

DreamSAC is een nieuw kader dat extrapolatie in 3D-fysica verbetert door een agent te laten verkennen via symmetrie-ontdekking en een Hamiltoniaans wereldmodel te leren dat behoudswetten identificeert uit ruwe pixelobservaties.

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang2026-03-10🤖 cs.LG

ReconDrive: Fast Feed-Forward 4D Gaussian Splatting for Autonomous Driving Scene Reconstruction

ReconDrive is een voorspellend framework dat de 3D-fundatiemodel VGGT uitbreidt met hybride Gaussische voorspellingskoppen en een statisch-dynamische 4D-samenstellingsstrategie om snelle, hoogwaardige 4D-Gaussian Splatting-reconstructies voor autonome rijscènes te genereren, waarmee het de snelheid van bestaande methoden combineert met de kwaliteit van per-scene optimalisatie.

Haibao Yu, Kuntao Xiao, Jiahang Wang, Ruiyang Hao, Yuxin Huang, Guoran Hu, Haifang Qin, Bowen Jing, Yuntian Bo, Ping Luo2026-03-10💻 cs

Active Inference for Micro-Gesture Recognition: EFE-Guided Temporal Sampling and Adaptive Learning

Dit artikel introduceert een actief inferentie-framework voor het herkennen van micro-gesten, dat gebruikmaakt van EFE-gestuurde temporele bemonstering en adaptief leren om de prestaties te verbeteren bij lage steekproefomvang, ruis en variabiliteit tussen gebruikers.

Weijia Feng, Jingyu Yang, Ruojia Zhang, Fengtao Sun, Qian Gao, Chenyang Wang, Tongtong Su, Jia Guo, Xiaobai Li, Minglai Shao2026-03-10💻 cs

PureCC: Pure Learning for Text-to-Image Concept Customization

Dit paper introduceert PureCC, een nieuwe methode voor tekst-naar-afbeelding conceptaanpassing die door middel van een ontkoppelde leerdoelstelling en een dubbel-tak trainingspijplijn hoogwaardige personalisatie mogelijk maakt zonder de oorspronkelijke vaardigheden van het model te verstoren.

Zhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan2026-03-10💻 cs

Brain-WM: Brain Glioblastoma World Model

Brain-WM is een pionierende wereldmodel-architectuur die een Y-vormige Mixture-of-Transformers structuur gebruikt om de co-evolutie van glioblastomen en behandelingen te modelleren door toekomstige MRI-beelden en behandelingsplannen gezamenlijk te genereren, waardoor de klinische uitkomsten voor patiënten kunnen worden geoptimaliseerd.

Chenhui Wang, Boyun Zheng, Liuxin Bao, Zhihao Peng, Peter Y. M. Woo, Hongming Shan, Yixuan Yuan2026-03-10💻 cs

SiamGM: Siamese Geometry-Aware and Motion-Guided Network for Real-Time Satellite Video Object Tracking

Deze paper introduceert SiamGM, een real-time Siamese netwerk voor satellietvideo-objecttracking dat geometrie- en bewegingsbewustzijn combineert om nauwkeurige tracking te bereiken bij kleine doelen en complexe omstandigheden zonder extra rekenkosten.

Zixiao Wen, Zhen Yang, Jiawei Li, Xiantai Xiang, Guangyao Zhou, Yuxin Hu, Yuhan Liu2026-03-10💻 cs

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

Het paper introduceert GRD-Net, een nieuw model voor industriële afwijkingdetectie dat een generatieve reconstructie-architectuur combineert met een discriminatieve module voor segmentatie van gebieden van belang, waardoor de afhankelijkheid van vooraf gedefinieerde voorverwerkingsalgoritmen wordt verminderd en de generalisatie op zowel synthetische als realistische industriële datasets wordt verbeterd.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

Efficient RGB-D Scene Understanding via Multi-task Adaptive Learning and Cross-dimensional Feature Guidance

Dit artikel presenteert een efficiënt RGB-D-scenarioverwerkingsmodel dat gebruikmaakt van een verbeterde fusie-encoder, aangepaste focuslagen en een multi-task adaptieve verliesfunctie om verschillende taken zoals semantische en instance-segmentatie met hoge nauwkeurigheid en snelheid uit te voeren.

Guodong Sun, Junjie Liu, Gaoyang Zhang, Bo Wu, Yang Zhang2026-03-10💻 cs

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Dit artikel presenteert een systematische vergelijking van vier trainingsdoelen voor het detecteren van out-of-distributie in beeldclassificatie en concludeert dat Cross-Entropy Loss over het algemeen de meest consistente prestaties levert, hoewel andere methoden in specifieke scenario's concurrerend kunnen zijn.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Dit paper presenteert een semi-supervised anomaliedetectieframework op basis van generatieve adversariale netwerken dat is ontworpen voor online implementatie op een hoge-snelheids Blow-Fill-Seal-productielijn, waar het met hoge nauwkeurigheid en binnen strikte tijdsbeperkingen defecten detecteert door enkel te trainen op nominale monsters.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

3DGS-HPC: Distractor-free 3D Gaussian Splatting with Hybrid Patch-wise Classification

Het paper introduceert 3DGS-HPC, een robuust framework dat tijdelijke afleidingen in 3D-scènes effectief elimineert door een hybride, patch-gebaseerde classificatiestrategie te combineren die lokale ruimtelijke consistentie en adaptieve visuele cues benut, waardoor de kwaliteit van 3D-Gaussian Splatting voor nieuwe weergaven in realistische omgevingen aanzienlijk wordt verbeterd.

Jiahao Chen, Yipeng Qin, Ganlong Zhao, Xin Li, Wenping Wang, Guanbin Li2026-03-10💻 cs

Models as Lego Builders: Assembling Malice from Benign Blocks via Semantic Blueprints

Dit paper introduceert StructAttack, een black-box jailbreak-methode die kwetsbaarheden in Large Vision-Language Models exploiteert door schadelijke inhoud te verbergen in ogenschijnlijk onschadelijke visuele structuren die het model zelf tot een gevaarlijke output assembleert.

Chenxi Li, Xianggan Liu, Dake Shen, Yaosong Du, Zhibo Yao, Hao Jiang, Linyi Jiang, Chengwei Cao, Jingzhe Zhang, RanYi Peng, Peiling Bai, Xiande Huang2026-03-10🤖 cs.LG

Fast Attention-Based Simplification of LiDAR Point Clouds for Object Detection and Classification

Deze paper presenteert een efficiënte, geleerde methode voor het vereenvoudigen van LiDAR-puntwolken via een op attentie gebaseerd mechanisme, die een betere balans biedt tussen verwerkingssnelheid en nauwkeurigheid voor objectdetectie en -classificatie in vergelijking met bestaande steekproefmethodes.

Z. Rozsa, Á. Madaras, Q. Wei, X. Lu, M. Golarits, H. Yuan, T. Sziranyi, R. Hamzaoui2026-03-10💻 cs

EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation

EmbedTalk introduceert een nieuwe methode voor realistische spraakgestuurde hoofdsynthese die tri-planes vervangt door leerbare embedding-driven Gaussische vervorming, wat resulteert in superieure kwaliteit en lip-sync bij een compactere modelgrootte en snelheden van meer dan 60 FPS op mobiele GPU's.

Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg2026-03-10💻 cs

Looking Into the Water by Unsupervised Learning of the Surface Shape

Deze paper introduceert een onbewaakte methode met twee neurale netwerken en SIREN-activaties om beeldvervormingen door wateroppervlakte-refractie te verwijderen en tegelijkertijd het oppervlak te reconstrueren, wat betere resultaten oplevert dan bestaande technieken.

Ori Lifschitz, Tali Treibitz, Dan Rosenbaum2026-03-10💻 cs

Compression as Adaptation: Implicit Visual Representation with Diffusion Foundation Models

Dit artikel introduceert een nieuw raamwerk voor visuele representatie waarbij video's worden gecodeerd als functies met lage-rang aanpassingen op een bevroren generatief model, waardoor compressie met uiterst lage bitrates mogelijk is en een brug wordt geslagen tussen beeldcompressie en generatie.

Jiajun He, Zongyu Guo, Zhaoyang Jia, Xiaoyi Zhang, Jiahao Li, Xiao Li, Bin Li, José Miguel Hernández-Lobato, Yan Lu2026-03-10🤖 cs.LG

← Vorige Volgende →