cs.CV papers | Gist.Science

Multi-head automated segmentation by incorporating detection head into the contextual layer neural network

Dit artikel presenteert een gated multi-head Transformer-architectuur die een detectiehoofd integreert in een Swin U-Net om valse positieve segmentaties in radiotherapie te onderdrukken door anatomisch ongeldige plakken te filteren, waardoor de nauwkeurigheid en betrouwbaarheid van geautomatiseerde contouring aanzienlijk wordt verbeterd.

Edwin Kys, Febian Febian2026-03-11🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Dit paper introduceert RegionReasoner, een versterkingsleerframework dat multi-round visuele redenering verbetert door grondige referenties aan objecten en globale-lokale semantische consistentie te eisen, vergezeld van een nieuw benchmark genaamd RegionDial-Bench voor systematische evaluatie.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek2026-03-11💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

Dit artikel introduceert WebAccessVL, een visueel-taalmodel dat automatisch HTML-codes aanpast om WCAG2-toegankelijkheidsproblemen op te lossen terwijl het oorspronkelijke ontwerp behouden blijft, wat resulteert in een aanzienlijke reductie van schendingen en een verbeterde visuele consistentie.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh2026-03-11🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Dit paper introduceert Test-Time Correction (TTC), een trainingsvrije methode die autoregressieve lange video-generatie verbetert door het gebruik van het eerste frame als stabiel anker om drift te corrigeren, waardoor hoge kwaliteit op lange duur wordt bereikt zonder de kosten van training.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

Dit paper introduceert RoSE, een nieuwe methode die monokulaire normaalenschattingsproblemen omvormt tot het schatten van schaduwsequenties via beeld-naar-video-generatieve modellen om zo de veelvoorkomende 3D-misalignatie van bestaande methoden te overwinnen en state-of-the-art resultaten te behalen.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Deze paper introduceert een energiebewust spike-budgeteringskader voor continue learning in spiking neural networks dat, door ervaringen te herhalen en neuronparameters aan te passen, zowel de nauwkeurigheid verbetert als het energieverbruik verlaagt voor zowel frame-gebaseerde als event-gebaseerde neuromorfe visiesystemen.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Multimodal Classification via Total Correlation Maximization

Dit paper introduceert TCMax, een hyperparameter-vrije methode die multimodale classificatie verbetert door de totale correlatie tussen multimodale kenmerken en labels te maximaliseren, waardoor modaalconcurrentie wordt verminderd en intermodale interacties worden benut.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng Lu2026-03-11💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

Het paper introduceert B-DENSE, een nieuw raamwerk dat de inferentie-efficiëntie van diffusiemodellen verbetert door middel van multi-branch trajectalignatie, waardoor een studentmodel dichte tussenstappen van de leraar leert om discretisatiefouten te verminderen en de beeldkwaliteit te verhogen.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Temporal Consistency-Aware Text-to-Motion Generation

Deze paper introduceert TCA-T2M, een nieuw raamwerk dat door middel van een temporal consistency-aware spatial VQ-VAE en kinematische beperkingen de tijdsconsistentie en fysieke plausibiliteit van tekst-naar-beweging generatie verbetert, wat resulteert in state-of-the-art prestaties op HumanML3D en KIT-ML benchmarks.

Hongsong Wang, Wenjing Yan, Qiuxia Lai + 1 more2026-03-11💻 cs

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

Dit artikel introduceert CoPeDiT, een generatief model dat zelfstandig het ontbrekende deel van 3D MRI-scans waarneemt om zo robuuste en semantisch consistente synthese mogelijk te maken zonder externe handmatige instructies.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

ChimeraLoRA loste het dilemma tussen diversiteit en detail in synthetische datasets op door een gedeelde LoRA voor klasse-priors te combineren met per-afbeelding LoRA's voor specifieke kenmerken, wat leidt tot robuuste verbeteringen in classificatieprestaties bij data-schaarste.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul Ok2026-03-11💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

Het artikel introduceert OrthoAI, een neurosymbolisch raamwerk dat door middel van segmentatie met schaarse supervisie, kennisgebaseerde constraint-inferentie en een multicriteria-evaluatiemodel de brug slaat tussen 3D-geometrische waarneming en klinisch biomechanisch redeneren voor de automatische ondersteuning van beslissingen bij orthodontie met transparante aligners.

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Deze paper introduceert een dubbele pijplijn voor de segmentatie van vogelafbeeldingen die foundation-modellen zoals SAM 2.1, Grounding DINO 1.5 en YOLOv11 combineert om zowel zero-shot als gesuperviseerde prestaties te bereiken die alle eerdere benchmarks op de CUB-200-2011-dataset overtreffen.

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

Dit paper introduceert DOCFORGE-BENCH, het eerste zero-shot benchmark voor documentvervalsing, en onthult dat bestaande methoden door een gebrek aan kalibratie en een extreem onevenwichtige verdeling van vervalsde pixels in plaats van door representatiefalen onbetrouwbaar zijn voor praktische toepassing.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Pri4R is een effectieve methode die Vision-Language-Action-modellen een impliciet begrip van werelddynamiek bijbrengt door tijdens het trainen gebruik te maken van bevoorrechte 4D-informatie via een lichtgewicht punt-track-head, wat leidt tot aanzienlijk betere prestaties in complexe manipulatietaken zonder extra rekenlast tijdens het gebruik.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

Performance Analysis of Edge and In-Sensor AI Processors: A Comparative Review

Dit overzichtspaper analyseert de prestaties van ultra-low-power edge- en in-sensor AI-processoren door een theoretische vergelijking van architectuurparadigma's te combineren met empirische benchmarks van het PicoSAM2-model op de GAP9, STM32N6 en Sony IMX500, waarbij de IMX500 uitblinkt in energie-efficiëntie en in-sensor verwerking.

Luigi Capogrosso, Pietro Bonazzi, Michele Magno2026-03-11🤖 cs.LG

Granulon: Awakening Pixel-Level Visual Encoders with Adaptive Multi-Granularity Semantics for MLLM

Het paper introduceert Granulon, een nieuw multimodaal groot taalmodel dat DINOv3 combineert met een adaptieve multi-granulariteitsarchitectuur om zowel pixel- als grootschalige semantische redenering te verenigen, wat resulteert in een aanzienlijke verbetering van de nauwkeurigheid en een vermindering van hallucinaties.

Junyuan Mao, Qiankun Li, Linghao Meng, Zhicheng He, Xinliang Zhou, Kun Wang, Yang Liu, Yueming Jin2026-03-11💻 cs

Where, What, Why: Toward Explainable 3D-GS Watermarking

Deze paper introduceert een uitlegbaar en robuust watermerksysteem voor 3D Gaussian Splatting dat door middel van een native framework en een 'Safety and Budget Aware Gate' een optimale balans bereikt tussen watermerkbereikbaarheid, visuele kwaliteit en auditieve traceerbaarheid.

Mingshu Cai, Jiajun Li, Osamu Yoshie, Yuya Ieiri, Yixuan Li2026-03-11💻 cs

VisionCreator-R1: A Reflection-Enhanced Native Visual-Generation Agentic Model

Het paper introduceert VisionCreator-R1, een native agent voor visuele creatie met een expliciet reflectiemechanisme en een RPCO-trainingsmethode die, ondanks een asymmetrie in beloningstoewijzing tussen planning en reflectie, betere prestaties behaalt dan Gemini2.5Pro op zowel eendaagse als meerdaagse visuele taken.

Jinxiang Lai, Wenzhe Zhao, Zexin Lu, Hualei Zhang, Qinyu Yang, Rongwei Quan, Zhimin Li, Shuai Shao, Song Guo, Qinglin Lu2026-03-11💻 cs

Computer Vision-Based Vehicle Allotment System using Perspective Mapping

Dit onderzoek presenteert een kosteneffectief, computer vision-gebaseerd parkeersysteem dat gebruikmaakt van YOLOv8 en inverse perspectiefmapping om vanuit vier camerabewakingen dynamisch beschikbare parkeerplekken te detecteren en deze in een 3D-omgeving weer te geven voor efficiëntere stadsparkeerbeheer.

Prachi Nandi, Sonakshi Satapathy, Suchismita Chinara2026-03-11💻 cs

← Vorige Volgende →