cs.CV papers | Gist.Science

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

DenoiseSplat is een feed-forward methode voor 3D Gaussian Splatting die robuuste 3D-scèneherconstructie mogelijk maakt uit ruisige multi-view beelden door te trainen op een groot schaalbaar benchmark met synthetische ruis, zonder gebruik te maken van 3D-ground truth.

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang2026-03-11🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Dit paper introduceert See, Plan, Rewind (SPR), een vooruitgangsgevoelig vision-language-action-framework dat robuuste robotmanipulatie bereikt door taken te onderbreken in verifieerbare mijlpalen en automatisch terug te keren naar een herstelpunt bij fouten, wat resulteert in state-of-the-art prestaties en generalisatie op uitdagende benchmarks.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

IntroSVG is een nieuw kader dat de kwaliteit van tekst-naar-SVG-generatie verbetert door een introspectieve generator-critic-structuur te gebruiken die visuele feedback van het gerenderde resultaat integreert via een iteratief 'genereren-beoordelen-verfijnen'-proces.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Het artikel introduceert CLoE, een consistentiegedreven raamwerk dat de segmentatieprestaties bij ontbrekende medische beeldmodaliteiten verbetert door experts op besluit- en regienniveau tot overeenstemming te brengen en modale betrouwbaarheid dynamisch te wegen.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

NLiPsCalib is een efficiënt kalibratiekader dat gebruikmaakt van Near-Light Photometric Stereo en controllable lichtbronnen om de 3D-reconstructie van gebogen visuo-tactiele sensoren te verbeteren zonder dure of arbeidsintensieve procedures.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Deze paper introduceert SpaceSense-Bench, een groot-schalig meer-modale benchmark met 136 satellietmodellen en nauwkeurige ground-truth annotaties gegenereerd in Unreal Engine 5, die dient om spacecraft-perceptie en pose-schatting te evalueren en aantoont dat het vergroten van de trainingsdiversiteit cruciaal is voor het verbeteren van prestaties op nieuwe doelen.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Dit paper introduceert OddGridBench, een nieuwe benchmark die aantoont dat multimodale grote taalmodellen tekortschieten in het detecteren van fijne visuele verschillen, en stelt OddGrid-GRPO voor, een versterkingsleerframework dat deze vaardigheid aanzienlijk verbetert.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Dit paper introduceert de STAR-benchmark, een multi-agent evaluatiekader dat het strategische redeneren en snelle besluitvorming van grote taalmodellen in nul-som omgevingen test, waarbij een significante kloof wordt blootgelegd tussen diep redeneren en effectieve uitvoering onder tijdsdruk.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

Dit paper introduceert Predictive Spectral Calibration (PSC), een bronvrij framework dat bestaande subspace-alignment-methoden voor testtijd-adaptatie in beeldregressie uitbreidt door blokspectrale matching toe te passen, wat leidt tot consistente prestatieverbeteringen onder zware distributieveranderingen.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy Hieu2026-03-11💻 cs

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Deze paper introduceert een robuust en wiskundig bewezen veilig beeldsteganografisch kader dat via iteratieve optimalisatie in de latentruimte de extractie van berichten verbetert zonder de beveiliging te verstoren.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen Ren2026-03-11💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

Dit artikel introduceert EPPINN, een nieuw raamwerk dat bewijskrachtig diep leren combineert met physics-informed neural networks om de nauwkeurigheid en betrouwbaarheid van perfusieparameter-schattingen bij acute ischemische beroertes te verbeteren door zowel aleatorische als epistemische onzekerheid te kwantificeren zonder Bayesiaanse steekproeven.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Dit paper introduceert M3GCLR, een speltheoretisch contrastief leerframework dat een oneindig skelet-data-spel en een dual-loss optimizer gebruikt om de beperkingen van bestaande zelftoezichtmethoden voor skeletgebaseerde actieherkenning te overwinnen en state-of-the-art prestaties op meerdere benchmarks te bereiken.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Deze paper introduceert MIL-PF, een schaalbaar framework dat voorgecomputeerde features van gefixeerde foundation-modellen combineert met een lichtgewicht Multiple Instance Learning-kop om mammografie-classificatie efficiënt en nauwkeurig te maken zonder de zware backbones opnieuw te hoeven trainen.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

SinGeo is een innovatief raamwerk dat een enkel model in staat stelt om robuuste cross-view geo-localisatie te bereiken door middel van een dubbel discriminatief leerproces en curriculum learning, waardoor het de huidige state-of-the-art prestaties overtreft en de noodzaak voor meerdere modellen elimineert.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao Wu2026-03-11💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

Het artikel introduceert EventVGGT, een nieuw raamwerk dat voor het eerst ruimtelijk-temporele en multi-view geometrische prioren distilleert vanuit de Visual Geometry Grounded Transformer (VGGT) naar het event-domein via een drievoudige distillatiestrategie, waardoor de temporele consistentie en nauwkeurigheid van monocular event-based diepteschatting aanzienlijk wordt verbeterd.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

Dit paper introduceert MIDAS, een trainingsvrij diffusion-gebaseerd raamwerk voor coverless steganografie dat via latente fusie en een willekeurige basis-mechanisme veilige toegang tot meerdere verborgen afbeeldingen mogelijk maakt voor specifieke gebruikers.

Minyeol Bae, Si-Hyeon Lee2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Dit rapport presenteert de ICDAR 2025 competitie voor end-to-end machinevertaling van documentafbeeldingen met complexe lay-outs, waarbij 69 teams deelnamen aan twee tracks (OCR-vrij en OCR-gebaseerd) en de resultaten aantonen dat grote modellen een veelbelovend paradigma vormen voor dit domein.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

Dit paper introduceert YOLO-NAS-Bench, het eerste surrogaat-benchmark voor YOLO-architectuuroptimalisatie, dat een zelfevoluerend voorspellermechanisme gebruikt om de evaluatiekosten drastisch te verlagen en tegelijkertijd superieure detectiearchitecturen te ontdekken die de officiële YOLO-baselines overtreffen.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Dit paper introduceert FCDM, een volledig convolutiegebaseerd diffusiemodel dat ConvNeXt herintroduceert als een uiterst efficiënt alternatief voor Transformer-architecturen, waarbij het met slechts 50% van de FLOPs en aanzienlijk minder trainingsstappen vergelijkbare prestaties levert.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

Dit paper introduceert RiO-DETR, de eerste real-time DETR-architectuur voor georiënteerde objectdetectie die specifieke uitdagingen zoals hoekperiodiciteit en convergentie oplost door middel van nieuwe ontwerpen zoals content-gedreven hoekschatting en ontkoppelde periodieke verfijning, waardoor een nieuwe snelheid-nauwkeurigheidswisselwerking wordt bereikt.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

← Vorige Volgende →