cs.CV articles | Gist.Science

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

Le papier présente NeuCLIP, un cadre d'optimisation novateur qui reformule la perte de contraste via l'analyse convexe et transforme l'estimation du terme de normalisation en l'apprentissage d'un réseau de neurones compact, permettant ainsi un entraînement CLIP plus efficace et performant à grande échelle sans dépendre de gros lots de données.

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Scriboora: Rethinking Human Pose Forecasting

Ce papier présente Scriboora, une étude qui établit un pipeline unifié pour la prévision de poses humaines, démontre l'efficacité de l'adaptation de modèles de traitement de la parole à cette tâche pour atteindre l'état de l'art, et évalue la robustesse des modèles face au bruit des estimateurs de pose grâce à une nouvelle variation de jeu de données et un réglage fin non supervisé.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

Le papier présente MatPedia, un modèle fondationnel génératif universel qui, grâce à une représentation conjointe RGB-PBR et une architecture de diffusion vidéo entraînée sur un corpus hybride, unifie la synthèse de matériaux haute fidélité et les tâches de décomposition intrinsèque pour dépasser les méthodes existantes en qualité et en diversité.

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

Le papier présente VideoChat-M1, un système multi-agents innovant qui améliore la compréhension vidéo grâce à une planification collaborative de politiques apprise par renforcement, permettant aux agents d'ajuster dynamiquement leurs stratégies d'invocation d'outils et d'interagir pour atteindre des performances de pointe sur plusieurs benchmarks.

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

UniLight: A Unified Representation for Lighting

Le papier propose UniLight, une représentation unifiée de l'éclairage sous forme d'espace latent commun qui aligne contrastivement divers modes (texte, images, irradiance et cartes d'environnement) pour permettre un transfert intermodal et une manipulation flexible dans des tâches telles que la recherche, la génération et le contrôle de l'éclairage.

Zitian Zhang, Iliyan Georgiev, Michael Fischer + 3 more2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

Cet article propose le Correcteur de Langevin Consistant aux Mesures (MCLC), un module de stabilisation théorique qui corrige les instabilités des solveurs de problèmes inverses basés sur les modèles de diffusion latente en alignant leurs dynamiques avec celles apprises par le modèle via des mises à jour consistantes aux mesures.

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG

3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising

Cet article présente le WCC-Net, un cadre de diffusion 3D innovant qui intègre des priors structuraux dans le domaine fréquentiel via des ondelettes pour améliorer le débruitage des images TEP corporelles à faible dose tout en préservant la cohérence anatomique.

Peiyuan Jing, Yue Yang, Chun-Wun Cheng + 8 more2026-03-05🤖 cs.AI

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

Cette étude propose une approche automatisée en plusieurs étapes pour détecter les fractures de la colonne cervicale en reconstruisant des volumes 3D estimés à partir de segmentations 2D orthogonales fusionnées, permettant ainsi d'obtenir des performances diagnostiques comparables à celles des radiologues experts tout en réduisant la complexité dimensionnelle du traitement.

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Cet article présente VRFT-Aug, un cadre de fine-tuning par renforcement visuel conçu pour le domaine médical qui améliore la perception et le raisonnement grâce à des stratégies d'entraînement innovantes, surpassant ainsi les méthodes de référence sur plusieurs jeux de données.

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

Ce papier présente la première compétition internationale sur la reconnaissance biométrique des pas, qui a mobilisé 23 équipes pour évaluer des modèles sur le vaste jeu de données UNB StepUP-P150, révélant des performances prometteuses tout en soulignant les défis persistants liés à la généralisation aux variations de chaussures.

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Le papier présente VidEoMT, un modèle de segmentation vidéo simplifié basé sur un encodeur ViT qui élimine les modules de suivi complexes grâce à un mécanisme de propagation et de fusion de requêtes, permettant d'atteindre des performances compétitives avec une vitesse de traitement jusqu'à 10 fois supérieure.

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero + 4 more2026-03-05💻 cs

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

Cet article présente le CASG, un cadre d'orientation de sécurité adaptatif et sans entraînement qui résout les conflits entre catégories de contenus préjudiciables dans les modèles de diffusion texte-vers-image en identifiant dynamiquement la catégorie de risque la plus pertinente pour appliquer une guidance ciblée, réduisant ainsi significativement le taux de génération d'images nocives.

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Skullptor comble le fossé entre les modèles fondationnels rapides et les méthodes d'optimisation coûteuses en combinant une prédiction de normales multi-vues par attention croisée avec une optimisation d'inverse rendering, permettant ainsi une reconstruction 3D haute fidélité de têtes en quelques secondes avec un nombre réduit de vues.

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

Momentum Memory for Knowledge Distillation in Computational Pathology

Cet article propose MoMKD, une nouvelle méthode de distillation de connaissances utilisant une mémoire à momentum pour stabiliser l'apprentissage multimodal en pathologie computationnelle et permettre une inférence précise basée uniquement sur l'histologie, palliant ainsi le manque de données appariées génomique-histologie.

Yongxin Guo, Hao Lu, Onur C. Koyun + 3 more2026-03-05💻 cs

Automatic Map Density Selection for Locally-Performant Visual Place Recognition

Cet article propose une approche de cartographie dynamique pour la reconnaissance visuelle de lieux qui sélectionne automatiquement la densité de la carte afin de garantir que des exigences de performance locales spécifiques soient satisfaites sur une proportion définie de l'environnement, évitant ainsi une surdensification inutile.

Somayeh Hussaini, Tobias Fischer, Michael Milford2026-03-05💻 cs

Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models

Ce papier propose la Redistribution du Crédit Spatial (SCR), une méthode d'inférence sans entraînement qui atténue les hallucinations des modèles vision-langage en rééquilibrant les activations des patches visuels pour restaurer le contexte spatial supprimé, améliorant ainsi la fiabilité sans sacrifier la qualité de génération ni la latence.

Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean + 2 more2026-03-05🤖 cs.AI

EvalMVX: A Unified Benchmarking for Neural 3D Reconstruction under Diverse Multiview Setups

Ce papier présente EvalMVX, un nouveau jeu de données réel et un benchmark unifié permettant d'évaluer quantitativement et simultanément les méthodes de reconstruction 3D neuronale basées sur la stéréoscopie multivue, la photométrie multivue et la forme par polarisation sous diverses conditions d'éclairage et de géométrie.

Zaiyan Yang, Jieji Ren, Xiangyi Wang + 5 more2026-03-05💻 cs

Improved MambdaBDA Framework for Robust Building Damage Assessment Across Disaster Domains

Cet article propose une amélioration du cadre MambaBDA pour l'évaluation des dommages aux bâtiments par imagerie satellite, intégrant une perte focale, des portes d'attention et un module d'alignement pour surmonter les déséquilibres de classes et les décalages de domaine, ce qui se traduit par des gains de performance significatifs, notamment dans des scénarios de catastrophes non vus.

Alp Eren Gençoğlu, Hazım Kemal Ekenel2026-03-05💻 cs

A Unified Revisit of Temperature in Classification-Based Knowledge Distillation

Cet article propose une étude unifiée examinant systématiquement les interactions entre le paramètre de température et divers éléments d'entraînement dans la distillation de connaissances, afin d'identifier des situations clés guidant son choix optimal pour les praticiens.

Logan Frank, Jim Davis2026-03-05🤖 cs.LG

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

Le papier propose ITO, un cadre d'apprentissage prédictif image-texte qui surpasse les méthodes existantes en combinant un alignement multiple multimodal et une fusion légère durant l'entraînement (abandonnée à l'inférence) pour éliminer l'écart modal et améliorer les performances sur divers benchmarks.

HanZpeng Liu, Yaqian Li, Zidan Wang + 6 more2026-03-05🤖 cs.AI

← Précédent Suivant →