cs.CV articles | Gist.Science

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Ce papier présente CountFormer, un cadre de comptage d'objets sans exemple qui remplace l'encodeur d'image par le modèle fondation auto-supervisé DINOv2 pour améliorer la cohérence structurelle et réduire les erreurs de surcomptage liées aux répétitions visuelles, tout en obtenant des performances compétitives sur le jeu de données FSC-147.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

Le papier présente SAGE, une approche zéro-shot qui génère des transitions vidéo cohérentes et structurellement alignées entre des clips divers en combinant guidance structurelle et synthèse générative, surpassant ainsi les méthodes existantes sans nécessiter d'entraînement spécifique.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Cet article propose une nouvelle méthode de détection des images générées par l'IA, appelée « reconstruction par rebond de diffusion », qui analyse la manière dont une image se réorganise sous l'effet d'une perturbation contrôlée par un modèle de diffusion, atteignant une précision exceptionnelle (AUROC de 0,993) pour distinguer les photographies authentiques des synthèses artificielles.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Ce rapport présente Jr. AI Scientist, un système autonome capable de générer des contributions scientifiques novatrices en suivant un flux de travail de recherche complet, tout en évaluant ses performances supérieures aux systèmes existants et en identifiant les risques et limites critiques nécessitant une supervision humaine.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Cet article présente MUGSQA, une nouvelle méthode d'évaluation de la qualité basée sur l'incertitude multiple, accompagnée d'un jeu de données et de benchmarks conçus pour mesurer la robustesse des méthodes de Gaussian Splatting et la performance des métriques d'évaluation existantes face aux variations des données d'entrée.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

Le papier présente CountOCC, un cadre de comptage amodal qui surpasse les méthodes actuelles en reconstruisant les caractéristiques des objets occlus grâce à une guidance multimodale hiérarchique et une nouvelle tâche d'équivalence visuelle, validé par des performances record sur des jeux de données augmentés avec occlusion.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Cet article propose une nouvelle méthode d'attaque par exemple adversaire pour les réseaux hyperboliques, baptisée « Angular Gradient Sign », qui exploite la géométrie de l'espace en se concentrant sur les composantes angulaires du gradient pour générer des perturbations plus efficaces et révéler des vulnérabilités spécifiques aux représentations hiérarchiques.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Le papier présente Video2Layout, un cadre qui améliore le raisonnement spatial des modèles multimodaux en reconstruisant des cartes cognitives métriques basées sur des coordonnées continues plutôt que sur des grilles discrétisées, permettant ainsi des calculs quantitatifs plus précis et une réduction de l'ambiguïté dans la description des relations spatiales.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

Multi-Order Matching Network for Alignment-Free Depth Super-Resolution

Cet article présente MOMNet, un cadre novateur de super-résolution de profondeur sans alignement qui utilise un mécanisme de correspondance multi-ordre pour récupérer et agréger de manière adaptative les informations RGB pertinentes, surmontant ainsi les limitations des méthodes existantes face aux désalignements inhérents aux scénarios réels.

Zhengxue Wang, Zhiqiang Yan, Yuan Wu, Guangwei Gao, Xiang Li, Jian Yang2026-03-10💻 cs

Learning to Think Fast and Slow for Visual Language Models

Ce papier présente DualMindVLM, un modèle de langage visuel qui imite le double système de pensée humain en adaptant dynamiquement la longueur de son raisonnement à la complexité de la tâche, offrant ainsi des performances de pointe avec une efficacité de tokens supérieure.

Chenyu Lin, Cheng Chi, Jinlin Wu, Sharon Li, Kaiyang Zhou2026-03-10💻 cs

Radiative-Structured Neural Operator for Continuous and Extrapolative Spectral Super-Resolution

Cet article propose le Radiative-Structured Neural Operator (RSNO), une nouvelle méthode d'apprentissage profond qui génère des images hyperspectrales continues et physiquement cohérentes à partir d'observations multispectrales en intégrant des contraintes radiatives et une projection angulaire cohérente pour éliminer les distorsions de couleur.

Ziye Zhang, Bin Pan, Zhenwei Shi2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

L'article présente UnfoldLDM, une méthode novatrice qui combine les réseaux de déroulement profond et les modèles de diffusion latents pour surmonter les limites des approches existantes en restauration d'images aveugle, grâce à un module d'estimation de dégradation multi-granulaire et un transformateur de correction des sur-lissages.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Cet article présente un système de suivi GNSS stable pour les robots marins utilisant une flotte de drones équipés de détection visuelle, d'un filtre de Kalman étendu pondéré par la confiance et d'un algorithme d'alignement d'identifiants pour assurer un suivi précis et robuste en temps réel.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Le papier présente Yo'City, un cadre agentique innovant qui génère des scènes urbaines 3D réalistes, personnalisables et infiniment extensibles en combinant une planification hiérarchique, une synthèse d'images guidée par l'auto-critique et une expansion relationnelle, surpassant ainsi les méthodes existantes sur tous les aspects de la qualité de génération.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

Shortcut Invariance: Targeted Jacobian Regularization in Disentangled Latent Space

Cet article propose une méthode de régularisation ciblée dans l'espace latent, qui améliore la généralisation hors distribution en injectant du bruit anisotrope pour aplatir les frontières de décision le long des axes de raccourcis sans nécessiter d'étiquettes explicites ni d'exemples contradictoires.

Shivam Pal, Sakshi Varshney, Piyush Rai2026-03-10🤖 cs.LG

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

Cette étude présente ForamDeepSlice, un cadre d'apprentissage profond de haute précision qui utilise des tranches 2D de micro-CT pour classifier automatiquement les espèces de foraminifères avec une exactitude de 95,64 %, tout en offrant un tableau de bord interactif pour le déploiement pratique en géosciences.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

S2AM3D: Scale-controllable Part Segmentation of 3D Point Cloud

Le papier présente S2AM3D, une méthode innovante qui combine des priors de segmentation 2D avec une supervision 3D cohérente et un nouveau jeu de données à grande échelle pour réaliser une segmentation de parties de nuages de points 3D robuste, généralisable et contrôlable en termes d'échelle.

Han Su, Tianyu Huang, Zichen Wan, Xiaohe Wu, Wangmeng Zuo2026-03-10💻 cs

HiconAgent: History Context-aware Policy Optimization for GUI Agents

Le papier présente HiconAgent, un agent d'interface graphique optimisé par HCPO qui utilise l'échantillonnage dynamique de contexte et la compression guidée par ancrage pour exploiter efficacement l'historique, surpassant ainsi des modèles plus grands avec une réduction significative des coûts computationnels.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

Les auteurs proposent MAViD, un cadre multimodal innovant basé sur une architecture Conductor-Creator qui intègre compréhension et génération pour produire des interactions dialogiques audio-visuelles longues, cohérentes et naturelles.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Cette étude révèle que l'information des tokens visuels dans les modèles VLLM s'efface au-delà d'une « horizon d'information » variable selon la tâche et la capacité du modèle, démontrant ainsi que l'élagage aléatoire des tokens dans les couches profondes est aussi efficace que les méthodes existantes et permet d'accélérer l'inférence sans perte significative de performance.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

← Précédent Suivant →