cs.CV articles | Gist.Science

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Ce papier présente UniM, le premier benchmark unifié de 31 000 instances couvrant sept modalités pour évaluer les capacités des grands modèles multimodaux à comprendre et générer des entrées et sorties multimodales entrelacées de manière arbitraire, accompagné d'une suite d'évaluation et d'un modèle de référence nommé UniMA.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

Le papier présente MoRe, un réseau de reconstruction 4D feed-forward efficace qui, grâce à une stratégie d'attention forcée et une attention causale groupée, permet de reconstruire des scènes dynamiques de haute qualité à partir de vidéos monoculaires tout en évitant les coûts computationnels élevés des méthodes d'optimisation existantes.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Cet article propose Orster, un cadre novateur qui transfère les priors spatiaux et temporels de modèles de diffusion 3D et vidéo vers un modèle de diffusion 4D désenchevêtré, surmontant ainsi le manque de données 4D massives pour générer du contenu 4D de haute qualité avec une cohérence spatio-temporelle supérieure.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Cet article propose une méthode d'attribution Shapley sur-manifold fondée sur des flots génératifs optimaux, qui résout les artefacts hors-manifold en définissant un attribut canonique unique via l'intégrale de ligne du gradient le long des géodésiques de Wasserstein minimisant l'énergie cinétique.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Le papier propose GEM-TFL, un cadre de localisation de falsification temporelle qui comble l'écart entre l'apprentissage faiblement et pleinement supervisé en combinant une optimisation EM pour enrichir les étiquettes binaires, un raffinement temporel sans entraînement et un module de raffinement basé sur des graphes pour améliorer la précision et la cohérence des détections.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

Diff-ES est un cadre de pruning structurel par étapes pour les modèles de diffusion qui utilise une recherche évolutionnaire pour optimiser automatiquement les schedules d'élagage et les exécute via un routage de poids efficace en mémoire, permettant d'accélérer la génération d'images sans duplication de paramètres ni perte significative de qualité.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

BLINK: Behavioral Latent Modeling of NK Cell Cytotoxicity

Le papier présente BLINK, un modèle d'espace d'états récurrent basé sur les trajectoires qui apprend la dynamique latente des interactions entre les cellules NK et les cellules tumorales pour prédire et anticiper les résultats de cytotoxicité tout en offrant une représentation interprétable des modes comportementaux cellulaires.

Iman Nematollahi, Jose Francisco Villena-Ossa, Alina Moter + 6 more2026-03-06🤖 cs.LG

UniPAR: A Unified Framework for Pedestrian Attribute Recognition

Le papier présente UniPAR, un cadre unifié basé sur les Transformers qui surmonte les limites des approches actuelles en permettant à un seul modèle de traiter simultanément des données hétérogènes (images RGB, vidéos et flux d'événements) pour la reconnaissance d'attributs piétons, tout en améliorant la généralisation inter-domaines grâce à une stratégie de fusion progressive et un entraînement conjoint sur plusieurs jeux de données.

Minghe Xu, Rouying Wu, Jiarui Xu + 5 more2026-03-06🤖 cs.AI

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

Cet article propose SRasP, une nouvelle méthode de perturbation de style auto-réorientée qui améliore l'apprentissage few-shot cross-domaine en stabilisant les gradients et en favorisant la convergence vers des minima plus plats grâce à une guidance sémantique globale et une optimisation multi-objectifs.

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Ce papier propose un cadre d'inférence adaptatif pour les modèles Vision-Language-Action qui, en analysant la complexité de l'état perçu via des embeddings visuels, permet de décider dynamiquement d'agir immédiatement, de raisonner sur des scénarios ambigus ou de s'abstenir d'agir pour éviter les échecs catastrophiques, optimisant ainsi l'allocation des ressources computationnelles.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

Ce papier présente SSR-GS, un cadre de reconstruction de surfaces brillantes qui améliore le splatting gaussien 3D en modélisant les réflexions spéculaires directes et indirectes tout en intégrant des priors géométriques et visuels pour atténuer l'impact des zones dominées par les reflets.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

Cette étude démontre que le recadrage simple des poumons par une boîte englobante permet de réduire l'apprentissage de raccourcis raciaux dans les modèles de diagnostic par radiographie thoracique tout en préservant leur précision, contournant ainsi le compromis habituel entre équité et performance.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

Cet article propose une méthode de calibration générique de caméra utilisant des images floues, qui estime simultanément les positions des caractéristiques et les fonctions d'étalement du point spatialement variables en exploitant des contraintes géométriques et un modèle d'illumination local pour surmonter le flou de mouvement inévitable lors de l'utilisation de tableaux d'étalonnage imprimés.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

L'article présente Mario, un cadre unifié qui améliore le raisonnement des grands modèles de langage sur des graphes multimodaux en résolvant les problèmes de cohérence intermodale et de préférence hétérogène grâce à un design de modèle vision-langage conditionné par le graphe et à un mécanisme d'instruction adaptatif.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Le papier présente Logi-PAR, un cadre innovant d'inférence logique pour la reconnaissance des activités des patients qui intègre des règles différentiables explicites afin de fournir des explications auditrices et des interventions contrefactuelles, surpassant ainsi les modèles d'état de l'art sur des benchmarks cliniques.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

Cet article propose le cadre SCDL, une méthode plug-and-play qui atténue les biais de supervision et de représentation dans la segmentation d'images médicales semi-supervisée en apprenant des distributions de caractéristiques conditionnelles aux classes, améliorant ainsi significativement la détection des structures minoritaires sur les jeux de données Synapse et AMOS.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

Ce papier présente SPyCer, un réseau semi-supervisé guidé par la physique qui utilise l'attention contextuelle et des contraintes physiques pour estimer avec précision la température de l'air près du sol à partir d'images satellites, comblant ainsi le manque de données des capteurs au sol.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Cet article présente un système de tri textile automatisé piloté par un jumeau numérique qui intègre la perception multimodale et le raisonnement de modèles visuels et linguistiques (VLM) pour classer les vêtements et détecter les objets étrangers avec une grande précision dans des environnements industriels réalistes.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

Ce papier présente ICHOR, une approche d'apprentissage auto-supervisé basée sur des auto-encodeurs masqués 3D et entraînée sur un vaste ensemble de données multi-sites, qui permet d'obtenir des représentations robustes pour les cartes de débit sanguin cérébral en IRM de perfusion par marquage de spin artériel (ASL) et surpasse les méthodes existantes dans diverses tâches diagnostiques et de prédiction de qualité.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

Le CATNet est un cadre adaptatif de perception coopérative qui résout les défis de la latence temporelle et du bruit multi-source grâce à une synchronisation spatio-temporelle, un débruitage par ondelettes et une sélection de caractéristiques dynamique, surpassant ainsi les méthodes existantes dans des conditions de trafic complexes.

Gong Chen, Chaokun Zhang, Tao Tang + 3 more2026-03-06💻 cs

← Précédent Suivant →