cs.CV articles | Gist.Science

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Le papier présente Crab⁺, un modèle audio-visuel unifié et évolutif qui surmonte le transfert négatif entre tâches hétérogènes grâce à une coopération explicite via un nouveau jeu de données d'instruction (AV-UIE v2) et une architecture d'apprentissage par LoRA interactionnelle (I-LoRA), permettant ainsi d'atteindre des performances supérieures à celles des modèles spécialisés sur la majorité des tâches.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

Mask-Guided Attention Regulation for Anatomically Consistent Counterfactual CXR Synthesis

Cet article présente un cadre d'inférence régulant l'attention pour synthétiser des radiographies thoraciques contrefactuelles anatomiquement cohérentes, en combinant une régularisation guidée par des masques pour préserver la structure et un module orienté pathologie pour contrôler précisément la localisation et l'étendue des lésions.

Zichun Zhang, Weizhi Nie, Honglin Guo + 1 more2026-03-05💻 cs

HBRB-BoW: A Retrained Bag-of-Words Vocabulary for ORB-SLAM via Hierarchical BRB-KMeans

Cet article propose HBRB-BoW, un algorithme d'entraînement de vocabulaire visuel hiérarchique qui intègre un flux réel global pour préserver la fidélité des descripteurs avant la binarisation finale, améliorant ainsi la précision et la robustesse des tâches de bouclage et de relocalisation dans le système ORB-SLAM.

Minjae Lee, Sang-Min Choi, Gun-Woo Kim + 1 more2026-03-05💻 cs

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis

Cet article propose le modèle LISTA-Transformer, qui intègre le codage parcimonieux basé sur l'algorithme LISTA et le mécanisme d'attention pour améliorer l'extraction de caractéristiques locales et globales dans le diagnostic de défauts industriels, atteignant un taux de reconnaissance de 98,5 % sur le jeu de données CWRU.

Shuang Liu, Lina Zhao, Tian Wang + 1 more2026-03-05💻 cs

Degradation-based augmented training for robust individual animal re-identification

Cet article présente un cadre d'entraînement augmenté par des dégradations artificielles qui améliore significativement la robustesse et la précision du ré-identification individuel des animaux sauvages, même pour des espèces non vues lors de l'entraînement, tout en fournissant de nouveaux benchmarks et données publiques pour ce domaine.

Thanos Polychronou, Lukáš Adam, Viktor Penchev + 1 more2026-03-05💻 cs

PlaneCycle: Training-Free 2D-to-3D Lifting of Foundation Models Without Adapters

Le papier présente PlaneCycle, une méthode sans entraînement ni adaptateur qui permet de transformer n'importe quel modèle fondation 2D pré-entraîné en un modèle 3D performant en réutilisant son architecture originale via une fusion spatiale cyclique sur des plans orthogonaux.

Yinghong Yu, Guangyuan Li, Jiancheng Yang2026-03-05🤖 cs.AI

Beyond Mixtures and Products for Ensemble Aggregation: A Likelihood Perspective on Generalized Means

Cet article propose une justification théorique fondée sur la vraisemblance pour l'agrégation d'ensembles via les moyennes généralisées, démontrant que seules les configurations d'ordre $r \in [0,1]$ garantissent systématiquement une amélioration par rapport aux distributions individuelles, ce qui valide ainsi les pratiques courantes de pooling linéaire et géométrique.

Raphaël Razafindralambo, Rémy Sun, Frédéric Precioso + 2 more2026-03-05🤖 cs.LG

Real5-OmniDocBench: A Full-Scale Physical Reconstruction Benchmark for Robust Document Parsing in the Wild

Le papier présente Real5-OmniDocBench, le premier benchmark de reconstruction physique à grande échelle qui recrée l'intégralité du jeu de données OmniDocBench v1.5 dans cinq scénarios réalistes, permettant ainsi d'identifier précisément les causes des défaillances des modèles de vision-langage dans le monde physique et de combler l'écart entre les performances numériques et réelles.

Changda Zhou, Ziyue Gao, Xueqing Wang + 4 more2026-03-05💻 cs

Nearest-Neighbor Density Estimation for Dependency Suppression

Cet article propose une méthode d'estimation de densité par plus proches voisins intégrée à un autoencodeur variationnel pour supprimer les dépendances indésirables dans les données, surpassant les techniques existantes en équilibrant efficacement l'effacement d'informations sensibles et la préservation de l'utilité des données.

Kathleen Anderson, Thomas Martinetz2026-03-05🤖 cs.LG

DiverseDiT: Towards Diverse Representation Learning in Diffusion Transformers

Ce papier présente DiverseDiT, un cadre novateur qui améliore l'apprentissage des représentations dans les Transformers de diffusion en promouvant activement la diversité des caractéristiques entre les blocs grâce à des connexions résiduelles étendues et une fonction de perte dédiée, ce qui se traduit par des gains de performance et une convergence accélérée.

Mengping Yang, Zhiyu Tan, Binglei Li + 3 more2026-03-05💻 cs

DeNuC: Decoupling Nuclei Detection and Classification in Histopathology

Le papier présente DeNuC, une méthode efficace qui découple la détection et la classification des noyaux en histopathologie pour surmonter les limitations des modèles fondationnels, offrant ainsi des performances supérieures avec une fraction des paramètres entraînables.

Zijiang Yang, Chen Kuang, Dongmei Fu2026-03-05💻 cs

EmbodiedSplat: Online Feed-Forward Semantic 3DGS for Open-Vocabulary 3D Scene Understanding

L'article propose EmbodiedSplat, une méthode de type 3DGS en feed-forward qui permet la reconstruction et la compréhension sémantique open-vocabulary de scènes 3D en temps réel à partir de flux d'images, en combinant un champ de coefficients clairsemés en ligne avec un codebook CLIP global et des caractéristiques géométriques 3D.

Seungjun Lee, Zihan Wang, Yunsong Wang + 1 more2026-03-05💻 cs

A Hypertoroidal Covering for Perfect Color Equivariance

Cet article propose une architecture de réseau de neurones véritablement équivariante pour la couleur, qui résout les artefacts des méthodes précédentes en relevant les valeurs de saturation et de luminosité d'intervalles vers des cercles (un double-couverture) plutôt que de les approximer par des translations linéaires, améliorant ainsi les performances et la généralisation sur des tâches de classification fine et d'imagerie médicale.

Yulong Yang, Zhikun Xu, Yaojun Li + 1 more2026-03-05💻 cs

ViterbiPlanNet: Injecting Procedural Knowledge via Differentiable Viterbi for Planning in Instructional Videos

Le papier présente ViterbiPlanNet, un cadre novateur qui intègre des connaissances procédurales explicites via une couche de Viterbi différentiable pour améliorer l'efficacité et la robustesse de la planification dans les vidéos d'instruction, surpassant les méthodes existantes avec moins de paramètres et un protocole d'évaluation unifié.

Luigi Seminara, Davide Moltisanti, Antonino Furnari2026-03-05💻 cs

SSR: A Generic Framework for Text-Aided Map Compression for Localization

Ce papier propose SSR, un cadre de compression générique qui exploite les descriptions textuelles et des vecteurs d'images compacts via une technique de réplication de l'espace de similarité pour réduire considérablement les coûts de stockage et de bande passante des cartes robotiques tout en maintenant une haute précision pour la localisation.

Mohammad Omama, Po-han Li, Harsh Goel + 6 more2026-03-05💻 cs

A multi-center analysis of deep learning methods for video polyp detection and segmentation

Cette étude multicentrique évalue l'efficacité des méthodes d'apprentissage profond exploitant les données séquentielles et l'information temporelle pour améliorer la détection et la segmentation des polypes coliques lors des colonoscopies en temps réel.

Noha Ghatwary, Pedro Chavarias Solano, Mohamed Ramzy Ibrahim + 24 more2026-03-05💻 cs

CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video

Le papier présente CubeComposer, un modèle de diffusion autorégressif spatio-temporel innovant capable de générer nativement des vidéos 360° en 4K à partir de vidéos en perspective, en surmontant les limitations de résolution des méthodes existantes grâce à une décomposition en cubemap et à des mécanismes de gestion de contexte optimisés pour une expérience VR immersive.

Lingen Li, Guangzhi Wang, Xiaoyu Li + 5 more2026-03-05🤖 cs.AI

Motion Manipulation via Unsupervised Keypoint Positioning in Face Animation

Ce papier présente MMFA, une nouvelle méthode non supervisée pour l'animation faciale qui permet un contrôle arbitraire des mouvements et l'interpolation d'expressions en découplant efficacement les informations d'identité et de mouvement grâce à un apprentissage de représentation auto-supervisé et un auto-encodeur variationnel.

Hong Li, Boyu Liu, Xuhui Liu + 1 more2026-03-05💻 cs

Dual Diffusion Models for Multi-modal Guided 3D Avatar Generation

Le papier présente PromptAvatar, un cadre innovant utilisant des modèles de diffusion duaux entraînés sur un vaste jeu de données multimodales pour générer des avatars 3D haute fidélité à partir de textes ou d'images en moins de 10 secondes, surmontant ainsi les limitations de contrôle et de vitesse des méthodes existantes.

Hong Li, Yutang Feng, Minqi Meng + 3 more2026-03-05💻 cs

CRESTomics: Analyzing Carotid Plaques in the CREST-2 Trial with a New Additive Classification Model

Cette étude présente CRESTomics, un nouveau modèle additif à noyau intégrant une perte de cohérence et une régularisation parcimonieuse de groupe, qui analyse 500 plaques carotidiennes de l'essai CREST-2 pour identifier de manière précise et interprétable des marqueurs radiomiques liés au risque clinique élevé.

Pranav Kulkarni, Brajesh K. Lal, Georges Jreij + 11 more2026-03-05🤖 cs.AI

← Précédent Suivant →

cs.CV

Crab+^{+}+: A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation