cs.CV papers | Gist.Science

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Dit paper introduceert CountFormer, een exemplaarvrij framework dat de DINOv2-vision foundation model gebruikt om visuele herhaling en structuur te leren voor objecttelling, en toont aan dat representatiekwaliteit cruciaal is voor het verminderen van overtellingen bij complexe objecten, hoewel de prestaties op de FSC-147-benchmark vergelijkbaar blijven met eerdere methoden.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

SAGE is een zero-shot methode die structurele geleiding combineert met generatieve synthese om naadloze en visueel coherente videotransities te creëren tussen diverse clips, waardoor het de beperkingen van bestaande klassieke en generatieve methoden overtreft zonder dat er gespecialiseerde trainingsdata nodig is.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Deze studie introduceert een forensische methode voor het detecteren van door AI gegenereerde afbeeldingen, genaamd 'diffusion snap-back reconstruction', die analyseert hoe afbeeldingen reageren op reconstructie door een diffusiemodel en hiermee een hoge nauwkeurigheid bereikt zonder te vertrouwen op traditionele pixelartefacten.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Dit paper introduceert Jr. AI Scientist, een autonoom systeem dat als beginnend onderzoeker werkt om nieuwe wetenschappelijke hypotheses te formuleren en te valideren op basis van bestaande papers, en analyseert zowel de prestaties als de risico's en beperkingen van dergelijke systemen voor de toekomst van de academische gemeenschap.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Dit artikel introduceert MUGSQA, een nieuwe methode, dataset en benchmarks voor de kwaliteitsbeoordeling van 3D-reconstructies met Gaussian Splatting, waarbij rekening wordt gehouden met meerdere onzekerheden in de invoergegevens om de perceptuele kwaliteit nauwkeuriger te evalueren.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

Dit paper introduceert CountOCC, een nieuw framework voor amodale objecttelling dat door middel van hiërarchische multimodale gidsing en een visuele equivalentiedoelstelling de door verduistering veroorzaakte fouten in bestaande methoden oplost en zo state-of-the-art prestaties bereikt op nieuwe, verduisterde datasets.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Dit artikel introduceert de Angular Gradient Sign-methode, een nieuw adversariaal aanvalsmechanisme dat specifiek de hoekcomponent van gradiënten in de hyperbolische ruimte benut om efficiëntere en geometrisch consistente aanvalspunten te genereren dan bestaande methoden.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Het artikel introduceert Video2Layout, een framework dat met behulp van continue objectgrenskoördinaten in plaats van rasterkaarten een metrisch onderbouwde cognitieve kaart reconstrueert uit video's, waardoor de ruimtelijke redeneerprestaties van multimodale grote taalmodellen significant worden verbeterd.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Deze paper introduceert MOMNet, een nieuw raamwerk voor dieptedetailverbetering dat zonder strikte ruimtelijke uitlijning tussen RGB- en dieptedata presteert door middel van een multi-orde matching- en aggregatiemechanisme, waardoor het robuust is tegen misalignement in real-world scenario's.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

Dit paper introduceert DualMindVLM, een visueel taalmodel dat een efficiënt dual-systeem denkmechanisme implementeert door automatisch te kiezen tussen snelle en langzame redenering op basis van probleemcomplexiteit, wat leidt tot state-of-the-art prestaties met minder tokenverspilling.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Dit artikel introduceert de Radiative-Structured Neural Operator (RSNO), een nieuwe diepe leer-methode die fysisch consistente, continue spectrale super-resolutie bereikt door multispectrale beelden om te zetten in hyperspectrale beelden via een driestapsproces met hoek-consistente projectie.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Deze paper introduceert UnfoldLDM, een diep-ontvouwing-gebaseerd raamwerk dat latent diffusion-priors integreert om blind beeldherstel te verbeteren door degradatie-afhankelijkheid en oververvaging aan te pakken via een multi-granulariteitsmodule en een degradatie-resistente transformer.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Deze paper presenteert een stabiel multi-drone GNSS-tracking-systeem voor maritieme robots dat, door middel van visuele detectie, multi-object tracking, triangulatie en een confidence-gewogen Extended Kalman Filter, nauwkeurige positiebepaling mogelijk maakt op het wateroppervlak en net daaronder.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Dit paper introduceert Yo'City, een nieuw agentisch kader dat gebruikmaakt van grote modellen voor top-down planning en een iteratief verfijningsproces om gepersonaliseerde, onbeperkt uitbreidbare en realistische 3D-stadsscènes te genereren die de huidige state-of-the-art-methoden overtreffen.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

Shortcut Invariance: Targeted Jacobian Regularization in Disentangled Latent Space

Deze paper introduceert een methode die shortcut-learning in diepe neurale netwerken aanpakt door gerichte anisotrope ruis in een ontkoppelde latente ruimte te injecteren, waardoor de classifier onafhankelijk wordt van shortcut-assen zonder dat shortcut-labels of tegenstrijdige voorbeelden nodig zijn.

Shivam Pal, Sakshi Varshney, Piyush Rai2026-03-10🤖 cs.LG

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

Dit artikel introduceert ForamDeepSlice, een hoog-accuraat deep learning-framework dat een ensemble van CNN-architecturen gebruikt om foraminiferasoorten te classificeren op basis van 2D micro-CT-slices, waarbij een testnauwkeurigheid van 95,64% wordt bereikt en een interactief dashboard voor praktische toepassing wordt ontwikkeld.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

Deze paper introduceert S2AM3D, een schaalcontroleerbaar model voor part-segmentatie van 3D-puntenwolken dat 2D-segmentatiepriors combineert met 3D-consistente supervisie en een nieuw groot dataset om robuuste en aanpasbare segmentatie van complexe structuren te bereiken.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

HiconAgent is een nieuwe GUI-agent die met de History Context-aware Policy Optimization (HCPO) methode, bestaande uit Dynamische Context Sampling en Anker-gestuurde Historiecompressie, historische context efficiënter gebruikt dan bestaande modellen, wat leidt tot betere prestaties en aanzienlijke reducties in rekenkosten.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

In dit paper wordt MAViD voorgesteld, een innovatief multimodaal raamwerk met een Conductor-Creator-architectuur dat geïntegreerde audio-visual dialogue-understanding en -generatie mogelijk maakt door autoregressieve en diffusiemodellen te combineren voor het creëren van levendige, contextueel samenhangende en langdurige interacties.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Deze paper introduceert het concept van een "informatiehorizon" in Vision Large Language Models, waarbij visuele tokens in diepere lagen hun relevantie verliezen en willekeurige pruning in deze lagen de inferentie-efficiëntie aanzienlijk verbetert zonder de prestaties te schaden.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

← Vorige Volgende →