cs.CV articles | Gist.Science

Traffic Sign Recognition in Autonomous Driving: Dataset, Benchmark, and Field Experiment

Cet article présente TS-1M, un jeu de données mondial de plus d'un million d'images et un benchmark diagnostique pour l'analyse des limites des modèles de reconnaissance de panneaux de signalisation face aux variations régionales et aux classes rares, validé par des expériences sur route autonome.

Guoyang Zhao, Weiqing Qi, Kai Zhang, Chenguang Zhang, Zeying Gong, Zhihai Bi, Kai Chen, Benshan Ma, Ming Liu, Jun Ma2026-03-25💻 cs

YOLOv10 with Kolmogorov-Arnold networks and vision-language foundation models for interpretable object detection and trustworthy multimodal AI in computer vision perception

Cet article propose un cadre de détection d'objets interprétable et digne de confiance pour la perception des véhicules autonomes, qui combine YOLOv10, des réseaux de Kolmogorov-Arnold pour visualiser la fiabilité des prédictions dans des conditions dégradées, et un modèle fondationnel vision-langage pour générer des descriptions multimodales.

Marios Impraimakis, Daniel Vazquez, Feiyu Zhou2026-03-25💬 cs.CL

HUydra: Full-Range Lung CT Synthesis via Multiple HU Interval Generative Modelling

Ce papier présente HUydra, une méthode générative innovante qui synthétise des scanners CT pulmonaires complets en modélisant séparément des intervalles de valeurs HU spécifiques pour surmonter la rareté des données médicales, tout en améliorant la fidélité visuelle et en réduisant les coûts computationnels par rapport aux approches conventionnelles.

António Cardoso, Pedro Sousa, Tania Pereira, Hélder P. Oliveira2026-03-25🤖 cs.LG

MLLM-HWSI: A Multimodal Large Language Model for Hierarchical Whole Slide Image Understanding

Le papier présente MLLM-HWSI, un modèle de langage multimodal hiérarchique qui aligne les caractéristiques visuelles des images de lames entières avec le langage pathologique à quatre échelles distinctes (cellule, patch, région et lame entière) pour améliorer la compréhension globale et le raisonnement interprétable en pathologie computationnelle.

Basit Alawode, Arif Mahmood, Muaz Khalifa Al-Radi, Shahad Albastaki, Asim Khan, Muhammad Bilal, Moshira Ali Abdalla, Mohammed Bennamoun, Sajid Javed2026-03-25💻 cs

PolarAPP: Beyond Polarization Demosaicking for Polarimetric Applications

Le papier présente PolarAPP, un cadre novateur qui optimise conjointement le dématriçage des images polarimétriques et les tâches en aval via un alignement sémantique et des contraintes d'imagerie équivalente, surpassant ainsi les méthodes existantes en qualité de reconstruction et en performance des applications.

Yidong Luo, Chenggong Li, Yunfeng Song, Ping Wang, Boxin Shi, Junchao Zhang, Xin Yuan2026-03-25💻 cs

Policy-based Tuning of Autoregressive Image Models with Instance- and Distribution-Level Rewards

Cet article propose un cadre d'apprentissage par renforcement léger pour les modèles d'images autoregressifs, intégrant une récompense de niveau distribution (LOO-FID) et des récompenses de niveau instance pour optimiser simultanément la qualité et la diversité des échantillons tout en évitant l'effondrement des modes et en supprimant le besoin d'une guidance sans classeur.

Orhun Bu\u{g}ra Baran, Melih Kandemir, Ramazan Gokberk Cinbis2026-03-25🤖 cs.LG

A Synchronized Audio-Visual Multi-View Capture System

Ce rapport technique présente un système de capture multi-vues audio-vidéo synchronisé qui comble le manque d'outils existants pour l'étude des interactions conversationnelles en traitant l'audio et la vidéo comme des signaux de première classe sous une architecture temporelle unifiée, permettant ainsi des enregistrements répétables à grande échelle et une analyse fine des comportements de conversation.

Xiangwei Shi, Era Dorta Perez, Ruud de Jong, Ojas Shirekar, Chirag Raman2026-03-25💻 cs

NeuroSeg Meets DINOv3: Transferring 2D Self-Supervised Visual Priors to 3D Neuron Segmentation via DINOv3 Initialization

Cet article propose une méthode nommée NeuroSeg qui adapte les représentations visuelles auto-supervisées 2D de DINOv3 à la segmentation neuronale 3D via une stratégie d'inflation de filtres et une perte squelettique consciente de la topologie, permettant d'améliorer significativement la précision de la reconstruction neuronale sur plusieurs jeux de données biomédicaux.

Yik San Cheng, Runkai Zhao, Weidong Cai2026-03-25💻 cs

AgentFoX: LLM Agent-Guided Fusion with eXplainability for AI-Generated Image Detection

L'article présente AgentFoX, un cadre d'IA générative piloté par un modèle de langage qui fusionne dynamiquement des preuves d'experts et fournit des rapports forensiques explicables pour détecter de manière fiable les images synthétiques.

Yangxin Yu, Yue Zhou, Bin Li, Kaiqing Lin, Haodong Li, Jiangqun Ni, Bo Cao2026-03-25💻 cs

Automatic Segmentation of 3D CT scans with SAM2 using a zero-shot approach

Cette étude démontre la faisabilité d'une segmentation zéro-shot de volumes CT 3D en adaptant le modèle SAM2, initialement conçu pour les images naturelles et la vidéo, grâce à des modifications d'inférence qui traitent les tranches CT comme des séquences ordonnées pour compenser son manque de conscience volumétrique intrinsèque.

Miquel Lopez Escoriza, Pau Amargant Alvarez2026-03-25💻 cs

← Précédent Suivant →