CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Il paper introduce CountFormer, un framework basato su DINOv2 che, sostituendo l'encoder di immagini con rappresentazioni foundation auto-supervisionate, mira a migliorare la consistenza strutturale nel conteggio di oggetti senza esempi, ottenendo risultati competitivi su FSC-147 e riducendo gli errori di sovrastima legati a componenti simmetriche o strutture complesse.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

Il paper presenta CountOCC, un framework innovativo per il conteggio amodale in scenari open world che supera i limiti delle attuali metodologie sotto occlusione ricostruendo le caratteristiche degli oggetti nascosti tramite guida multimodale gerarchica e un obiettivo di equivalenza visiva, ottenendo risultati allo stato dell'arte su dataset appositamente creati come FSC-147-OCC e CARPK-OCC.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

Il paper presenta DualMindVLM, un modello di linguaggio visivo che implementa un meccanismo di pensiero duale adattivo, imitando la capacità umana di alternare risposte intuitive rapide a ragionamenti deliberati lenti in base alla complessità del compito, ottenendo così prestazioni di ragionamento all'avanguardia con un'efficienza dei token significativamente superiore rispetto ai modelli esistenti.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Il paper presenta UnfoldLDM, un nuovo approccio per il ripristino cieco delle immagini che integra le reti di deep unfolding con un modello di diffusione latente, superando le limitazioni delle metodologie esistenti grazie a un modulo di stima della degradazione e a un meccanismo di correzione per i dettagli ad alta frequenza.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Il paper presenta Yo'City, un innovativo framework agentic che utilizza modelli di grandi dimensioni per generare scene urbane 3D realistiche, personalizzabili e infinitamente espandibili attraverso una pianificazione gerarchica e un meccanismo di espansione guidato dall'utente, superando le prestazioni degli stati dell'arte esistenti.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

Questo studio presenta ForamDeepSlice, un framework di deep learning ad alta precisione che utilizza un ensemble di reti neurali convoluzionali per classificare automaticamente le specie di foraminiferi da fette 2D micro-CT, raggiungendo un'accuratezza del 95,64% e fornendo una dashboard interattiva per l'identificazione micropaleontologica assistita dall'IA.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG