cs.CV articles | Gist.Science

EdgeDAM: Real-time Object Tracking for Mobile Devices

Le papier propose EdgeDAM, un cadre de suivi d'objets léger et guidé par la détection conçu pour les appareils mobiles, qui améliore la robustesse face aux occlusions et aux distracteurs grâce à une mémoire à double tampon et à un mécanisme de stabilisation, tout en maintenant des performances en temps réel.

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

Cette étude présente HALP, une méthode permettant de détecter les hallucinations des modèles vision-langage en analysant leurs représentations internes avant même la génération d'un seul token, offrant ainsi une approche rapide et efficace pour améliorer la sécurité et l'efficacité de ces modèles.

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun + 1 more2026-03-06💻 cs

Towards 3D Scene Understanding of Gas Plumes in LWIR Hyperspectral Images Using Neural Radiance Fields

Cette étude propose une méthode basée sur les champs de radiations neuronaux (NeRF) pour reconstruire des scènes 3D à partir d'images hyperspectrales infrarouges à ondes longues (LWIR) avec un nombre réduit d'images d'entraînement, permettant ainsi une détection efficace des panaches de gaz.

Scout Jarman, Zigfried Hampel-Arias, Adra Carr + 1 more2026-03-06💻 cs

Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Ce papier présente MM-Lifelong, un jeu de données de 181,1 heures pour la compréhension multimodale à long terme, et propose ReMA, un agent récursif doté d'une gestion dynamique de la mémoire qui surpasse les méthodes actuelles en surmontant les goulots d'étranglement de la mémoire de travail et les effondrements de localisation globale.

Guo Chen, Lidong Lu, Yicheng Liu + 17 more2026-03-06💻 cs

Accelerating Text-to-Video Generation with Calibrated Sparse Attention

Le papier présente CalibAtt, une méthode sans entraînement qui accélère la génération vidéo en identifiant et en sautant les calculs d'attention redondants et négligeables grâce à une calibration hors ligne, permettant ainsi d'obtenir un gain de vitesse allant jusqu'à 1,58 fois tout en préservant la qualité des résultats.

Shai Yehezkel, Shahar Yadin, Noam Elata + 2 more2026-03-06💻 cs

FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning

FaceCam est un système qui génère des vidéos de portraits humains avec des trajectoires de caméra personnalisées en utilisant une représentation d'échelle consciente pour éviter les distorsions géométriques, sans dépendre de priors 3D.

Weijie Lyu, Ming-Hsuan Yang, Zhixin Shu2026-03-06💻 cs

Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

Cet article propose une méthode d'inpainting basée sur les transformers et consciente de la multi-vue, conçue comme un module de post-traitement indépendant pour compléter en temps réel les textures manquantes dans les flux 3D issus de configurations de caméras multi-angles espacées, offrant ainsi un compromis optimal entre qualité visuelle et rapidité d'exécution.

Leif Van Holland, Domenic Zingsheim, Mana Takhsha + 4 more2026-03-06💻 cs

Volley Revolver: A Novel Matrix-Encoding Method for Privacy-Preserving Neural Networks (Inference)

Cet article présente une nouvelle méthode d'encodage matriciel, nommée Volley Revolver, permettant d'exécuter efficacement des réseaux de neurones convolutifs sur des données chiffrées via le chiffrement homomorphe, comme démontré par une classification d'images MNIST dans le cloud avec un seul ciphertext de 19,8 Mo.

John Chiang2026-03-05💻 cs

Schrödinger's Camera: First Steps Towards a Quantum-Based Privacy Preserving Camera

Cet article propose une approche novatrice de préservation de la vie privée en vision par ordinateur qui stocke les images dans des états quantiques et utilise un apprentissage par renforcement pour contrôler le compromis entre utilité et confidentialité avant la mesure.

Hannah Kirkland, Sanjeev J. Koppal2026-03-05⚛️ quant-ph

GeoTop: Advancing Image Classification with Geometric-Topological Analysis

Le cadre GeoTop unifie l'analyse topologique des données et les courbures de Lipschitz-Killing pour surmonter l'équivalence topologique en imagerie diagnostique, offrant ainsi une classification précise et interprétable des lésions cutanées grâce à la différenciation géométrique fine.

Mariem Abaach, Ian Morilla2026-03-05🤖 cs.LG

Catch Me If You Can Describe Me: Open-Vocabulary Camouflaged Instance Segmentation with Diffusion

Cet article propose une méthode innovante pour la segmentation d'instances camouflées à vocabulaire ouvert, qui exploite les modèles de diffusion texte--image pour apprendre des représentations visuelles et textuelles multi-échelles afin de surmonter le défi du masquage des objets dans leur environnement.

Tuan-Anh Vu, Duc Thanh Nguyen, Qing Guo + 4 more2026-03-05🤖 cs.AI

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

L'article présente Export3D, une méthode d'animation de portraits en une seule prise qui génère des vues 3D contrôlables par l'expression sans échange d'apparence, grâce à un générateur de tri-planes conditionné et un cadre de pré-entraînement contrastif pour isoler les paramètres d'expression de l'identité.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

FireANTs: Adaptive Riemannian Optimization for Multi-Scale Diffeomorphic Matching

Le papier présente FireANTs, un algorithme d'optimisation riemannienne adaptative multi-échelle sans apprentissage qui accélère considérablement l'appariement d'images diféomorphes denses tout en réduisant l'utilisation de la mémoire et en assurant une robustesse supérieure par rapport aux méthodes traditionnelles et aux réseaux de neurones profonds.

Rohit Jena, Pratik Chaudhari, James C. Gee2026-03-05💻 cs

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

Le papier présente Merlin, un modèle fondationnel vision-langage 3D entraîné sur un vaste ensemble de données cliniques pour l'analyse automatisée des scanners abdominaux, surpassant les modèles existants sur une large gamme de tâches diagnostiques, pronostiques et de qualité tout en garantissant une forte généralisation inter-sites.

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen + 37 more2026-03-05🤖 cs.AI

Natural Adversaries: Fuzzing Autonomous Vehicles with Realistic Roadside Object Placements

Cette présentation introduit TrashFuzz, un algorithme de fuzzing en boîte noire qui teste la résilience des véhicules autonomes en manipulant de manière réaliste la position d'objets routiers courants pour induire des erreurs de perception et des violations du code de la route, tout en respectant les normes de conception routière.

Yang Sun, Haoyu Wang, Christopher M. Poskitt + 1 more2026-03-05💻 cs

FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models

Le papier présente FINE, une méthode de pré-entraînement novatrice qui factorise les connaissances des modèles de diffusion en composantes fondamentales appelées « learngenes », permettant d'initialiser efficacement des modèles de tailles variables sans nécessiter de réentraînement complet.

Yucheng Xie, Fu Feng, Ruixiao Shi + 4 more2026-03-05💻 cs

Scaling Laws For Diffusion Transformers

Cette étude établit pour la première fois l'existence de lois d'échelle pour les transformateurs de diffusion (DiT) en démontrant que leur perte de pré-entraînement suit une relation de puissance avec le calcul, permettant ainsi de prédire avec précision les performances de génération et d'optimiser les ressources nécessaires.

Zhengyang Liang, Hao He, Ceyuan Yang + 1 more2026-03-05💻 cs

TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control

TextMaster est un cadre unifié qui améliore l'édition de texte réaliste en combinant des informations de glyphes haute résolution, une perte perceptuelle et un mécanisme d'attention pour garantir une précision des traits, un contrôle du style et une mise en page adaptative.

Zhenyu Yan, Jian Wang, Aoqiang Wang + 3 more2026-03-05💻 cs

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

Le papier présente FlowCLAS, un cadre hybride qui améliore les flux normalisants pour la segmentation d'anomalies en robotique en combinant une fonction de perte de vraisemblance maximale avec un apprentissage contrastif basé sur l'exposition aux valeurs aberrantes, établissant ainsi de nouvelles performances de pointe sur plusieurs benchmarks.

Chang Won Lee, Selina Leveugle, Svetlana Stolpner + 4 more2026-03-05🤖 cs.LG

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

Ce papier présente VideoMindPalace, un nouveau cadre qui structure les moments clés des vidéos en graphes sémantiques topologiques inspirés de la « méthode des lieux » pour améliorer la compréhension des vidéos longues par les modèles de langage vision, accompagné d'un benchmark dédié pour évaluer le raisonnement humain.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

← Précédent Suivant →