cs.CV articles | Gist.Science

Topological Alignment of Shared Vision-Language Embedding Space

Ce papier présente ToMCLIP, un cadre d'apprentissage qui améliore l'alignement des modèles vision-langage multilingues en intégrant des contraintes topologiques via l'homologie persistante pour préserver la géométrie globale de l'espace d'embedding et renforcer les performances en zéro-shot et en récupération multilingue.

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

Cet article présente COGS, un cadre de synthèse de données ancré sur la composition qui améliore les capacités de raisonnement des modèles de langage multimodaux préentraînés en décomposant et recomposant systématiquement des questions semences pour générer des données synthétiques, permettant ainsi des gains significatifs sur des tâches de raisonnement visuel complexes comme l'analyse de graphiques et de documents web.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

A Geometry-Based View of Mahalanobis OOD Detection

Cette étude révèle que la fiabilité de la détection hors distribution par Mahalanobis dépend fortement de la géométrie des représentations, et propose une normalisation radialement ajustée basée sur la dimensionnalité intrinsèque locale pour optimiser les performances.

Denis Janiak, Jakub Binkowski, Tomasz Kajdanowicz2026-03-05🤖 cs.LG

Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

Kaleido est un modèle de génération vidéo open-source qui surpasse les méthodes existantes en matière de cohérence multi-sujets et de fidélité aux références grâce à une nouvelle chaîne de construction de données et à l'introduction d'un encodage positionnel rotatif dédié (R-RoPE) pour l'intégration stable de multiples images de référence.

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang + 6 more2026-03-05🤖 cs.AI

Weakly Supervised Concept Learning with Class-Level Priors for Interpretable Medical Diagnosis

Cet article propose le PCP, un cadre d'apprentissage faiblement supervisé qui utilise des priors de concepts au niveau des classes pour prédire des concepts médicaux interprétables sans annotations explicites ni modèles linguistiques, améliorant ainsi significativement la précision des concepts tout en maintenant des performances de classification compétitives sur plusieurs jeux de données médicaux.

Md Nahiduzzaman, Steven Korevaar, Alireza Bab-Hadiashar + 1 more2026-03-05💻 cs

Improving Multi-View Reconstruction via Texture-Guided Gaussian-Mesh Joint Optimization

Cet article propose un cadre unifié pour l'optimisation conjointe de la géométrie maillée et de l'apparence guidée par des textures, permettant une reconstruction 3D de haute qualité à partir d'images multi-vues qui facilite les tâches d'édition en aval telles que le rééclairage et la déformation.

Zhejia Cai, Puhua Jiang, Shiwei Mao + 2 more2026-03-05🤖 cs.AI

Re-coding for Uncertainties: Edge-awareness Semantic Concordance for Resilient Event-RGB Segmentation

Cet article propose un cadre novateur de concordance sémantique sensible aux contours, baptisé ESC, qui fusionne de manière résiliente les modalités événementielle et RVB pour la segmentation sémantique dans des conditions extrêmes en récodant les caractéristiques hétérogènes à l'aide d'indicateurs d'incertitude et d'un dictionnaire de contours préétabli.

Nan Bao, Yifan Zhao, Lin Zhu + 1 more2026-03-05💻 cs

NeuCLIP: Efficient Large-Scale CLIP Training with Neural Normalizer Optimization

Le papier présente NeuCLIP, un cadre d'optimisation novateur qui reformule la perte de contraste via l'analyse convexe et transforme l'estimation du terme de normalisation en l'apprentissage d'un réseau de neurones compact, permettant ainsi un entraînement CLIP plus efficace et performant à grande échelle sans dépendre de gros lots de données.

Xiyuan Wei, Chih-Jen Lin, Tianbao Yang2026-03-05🤖 cs.LG

Scriboora: Rethinking Human Pose Forecasting

Ce papier présente Scriboora, une étude qui établit un pipeline unifié pour la prévision de poses humaines, démontre l'efficacité de l'adaptation de modèles de traitement de la parole à cette tâche pour atteindre l'état de l'art, et évalue la robustesse des modèles face au bruit des estimateurs de pose grâce à une nouvelle variation de jeu de données et un réglage fin non supervisé.

Daniel Bermuth, Alexander Poeppel, Wolfgang Reif2026-03-05💻 cs

MatPedia: A Universal Generative Foundation for High-Fidelity Material Synthesis

Le papier présente MatPedia, un modèle fondationnel génératif universel qui, grâce à une représentation conjointe RGB-PBR et une architecture de diffusion vidéo entraînée sur un corpus hybride, unifie la synthèse de matériaux haute fidélité et les tâches de décomposition intrinsèque pour dépasser les méthodes existantes en qualité et en diversité.

Di Luo, Shuhui Yang, Mingxin Yang + 6 more2026-03-05💻 cs

VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

Le papier présente VideoChat-M1, un système multi-agents innovant qui améliore la compréhension vidéo grâce à une planification collaborative de politiques apprise par renforcement, permettant aux agents d'ajuster dynamiquement leurs stratégies d'invocation d'outils et d'interagir pour atteindre des performances de pointe sur plusieurs benchmarks.

Boyu Chen, Zikang Wang, Zhengrong Yue + 9 more2026-03-05💻 cs

UniLight: A Unified Representation for Lighting

Le papier propose UniLight, une représentation unifiée de l'éclairage sous forme d'espace latent commun qui aligne contrastivement divers modes (texte, images, irradiance et cartes d'environnement) pour permettre un transfert intermodal et une manipulation flexible dans des tâches telles que la recherche, la génération et le contrôle de l'éclairage.

Zitian Zhang, Iliyan Georgiev, Michael Fischer + 3 more2026-03-05💻 cs

Measurement-Consistent Langevin Corrector for Stabilizing Latent Diffusion Inverse Problem Solvers

Cet article propose le Correcteur de Langevin Consistant aux Mesures (MCLC), un module de stabilisation théorique qui corrige les instabilités des solveurs de problèmes inverses basés sur les modèles de diffusion latente en alignant leurs dynamiques avec celles apprises par le modèle via des mises à jour consistantes aux mesures.

Lee Hyoseok, Sohwi Lim, Eunju Cha + 1 more2026-03-05🤖 cs.LG

3D Wavelet-Based Structural Priors for Controlled Diffusion in Whole-Body Low-Dose PET Denoising

Cet article présente le WCC-Net, un cadre de diffusion 3D innovant qui intègre des priors structuraux dans le domaine fréquentiel via des ondelettes pour améliorer le débruitage des images TEP corporelles à faible dose tout en préservant la cohérence anatomique.

Peiyuan Jing, Yue Yang, Chun-Wun Cheng + 8 more2026-03-05🤖 cs.AI

Tracing 3D Anatomy in 2D Strokes: A Multi-Stage Projection Driven Approach to Cervical Spine Fracture Identification

Cette étude propose une approche automatisée en plusieurs étapes pour détecter les fractures de la colonne cervicale en reconstruisant des volumes 3D estimés à partir de segmentations 2D orthogonales fusionnées, permettant ainsi d'obtenir des performances diagnostiques comparables à celles des radiologues experts tout en réduisant la complexité dimensionnelle du traitement.

Fabi Nahian Madhurja, Rusab Sarmun, Muhammad E. H. Chowdhury + 3 more2026-03-05🤖 cs.AI

Improving Medical Visual Reinforcement Fine-Tuning via Perception and Reasoning Augmentation

Cet article présente VRFT-Aug, un cadre de fine-tuning par renforcement visuel conçu pour le domaine médical qui améliore la perception et le raisonnement grâce à des stratégies d'entraînement innovantes, surpassant ainsi les méthodes de référence sur plusieurs jeux de données.

Guangjing Yang, ZhangYuan Yu, Ziyuan Qin + 7 more2026-03-05🤖 cs.AI

First International StepUP Competition for Biometric Footstep Recognition: Methods, Results and Remaining Challenges

Ce papier présente la première compétition internationale sur la reconnaissance biométrique des pas, qui a mobilisé 23 équipes pour évaluer des modèles sur le vaste jeu de données UNB StepUP-P150, révélant des performances prometteuses tout en soulignant les défis persistants liés à la généralisation aux variations de chaussures.

Robyn Larracy, Eve MacDonald, Angkoon Phinyomark + 5 more2026-03-05🤖 cs.LG

VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

Le papier présente VidEoMT, un modèle de segmentation vidéo simplifié basé sur un encodeur ViT qui élimine les modules de suivi complexes grâce à un mécanisme de propagation et de fusion de requêtes, permettant d'atteindre des performances compétitives avec une vitesse de traitement jusqu'à 10 fois supérieure.

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero + 4 more2026-03-05💻 cs

When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance

Cet article présente le CASG, un cadre d'orientation de sécurité adaptatif et sans entraînement qui résout les conflits entre catégories de contenus préjudiciables dans les modèles de diffusion texte-vers-image en identifiant dynamiquement la catégorie de risque la plus pertinente pour appliquer une guidance ciblée, réduisant ainsi significativement le taux de génération d'images nocives.

Yongli Xiang, Ziming Hong, Zhaoqing Wang + 3 more2026-03-05💻 cs

Skullptor: High Fidelity 3D Head Reconstruction in Seconds with Multi-View Normal Prediction

Skullptor comble le fossé entre les modèles fondationnels rapides et les méthodes d'optimisation coûteuses en combinant une prédiction de normales multi-vues par attention croisée avec une optimisation d'inverse rendering, permettant ainsi une reconstruction 3D haute fidélité de têtes en quelques secondes avec un nombre réduit de vues.

Noé Artru, Rukhshanda Hussain, Emeline Got + 3 more2026-03-05💻 cs

← Précédent Suivant →