cs.CV articles | Gist.Science

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

Cet article propose un cadre d'apprentissage coopératif (CSL) qui résout simultanément l'apprentissage de caractéristiques sémantiques robustes et la récupération des labels manquants pour la reconnaissance d'images multi-étiquettes incomplète, surpassant ainsi les méthodes de l'état de l'art sur plusieurs jeux de données publics.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

Le papier présente UniFlow, un tokenizer visuel unifié qui résout le compromis traditionnel entre la compréhension et la génération d'images en combinant une distillation auto-adaptative pour préserver les caractéristiques sémantiques avec un décodeur de flux de pixels par patch pour une reconstruction fidèle, permettant ainsi de surpasser les modèles existants sur des tâches d'analyse et de création visuelle.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Cet article présente un cadre d'apprentissage en deux étapes qui permet d'entraîner des modèles génératifs directement dans l'espace des pixels avec des performances de pointe sur ImageNet, surpassant les méthodes basées sur les VAE et réduisant considérablement les coûts de calcul.

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

Inspiré par le circuit olfactif de la mouche, Fly-CL est un cadre bio-inspiré qui améliore l'apprentissage continu de représentations en résolvant efficacement la multicolinéarité et en réduisant considérablement le temps d'entraînement tout en maintenant des performances de pointe.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

Le papier présente Mono4DGS-HDR, un système pionnier utilisant une approche d'optimisation en deux étapes basée sur le Gaussian Splatting pour reconstruire des scènes 4D à haute dynamique (HDR) à partir de vidéos monoculaires non calibrées avec des expositions alternées, tout en assurant une cohérence temporelle grâce à une régularisation spécifique.

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

LightMem: Lightweight and Efficient Memory-Augmented Generation

Le papier présente LightMem, un système de mémoire léger et efficace inspiré du modèle humain d'Atkinson-Shiffrin qui, grâce à une organisation en trois étapes (mémoire sensorielle, court terme et long terme avec mise à jour hors ligne), améliore significativement la précision des LLMs tout en réduisant drastiquement l'utilisation de tokens et les appels API par rapport aux méthodes existantes.

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models

L'article présente BioCAP, un modèle fondamental biologique qui améliore la classification des espèces et la recherche image-texte en exploitant des légendes synthétiques générées par des modèles de langage multimodaux pour enrichir l'apprentissage au-delà des simples étiquettes.

Ziheng Zhang, Xinyue Ma, Arpita Chowdhury + 9 more2026-03-03💬 cs.CL

VoMP: Predicting Volumetric Mechanical Property Fields

VoMP est une méthode feed-forward novatrice qui prédit de manière précise et rapide les champs de propriétés mécaniques volumétriques (module de Young, coefficient de Poisson et densité) de n'importe quel objet 3D en apprenant un espace latent de matériaux physiquement plausibles à partir d'un nouveau pipeline d'annotation et d'un benchmark dédié.

Rishit Dagli, Donglai Xiang, Vismay Modi + 7 more2026-03-03🤖 cs.LG

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

Le papier présente Concerto, un modèle d'apprentissage auto-supervisé conjoint 2D-3D inspiré de la synergie multisensorielle humaine, qui établit de nouvelles références dans la perception des scènes 3D en apprenant des représentations spatiales géométriques et sémantiques supérieures.

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

Le papier présente ProMoE, un cadre MoE pour les Transformers de diffusion qui surpasse les méthodes actuelles en introduisant un routage explicite à deux étapes guidé par des prototypes pour surmonter les défis de la spécialisation des experts dans les tokens visuels.

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

Le papier présente "Brain-IT", une méthode basée sur un Transformer d'interaction cérébrale qui reconstruit fidèlement des images à partir de données fMRI en exploitant des clusters fonctionnels partagés pour prédire des caractéristiques sémantiques et structurelles, surpassant les approches actuelles tout en nécessitant beaucoup moins de données d'entraînement.

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Cette étude propose une méthode novatrice générant des vidéos de visages parlants haute résolution exclusivement à partir d'un seul signal audio, en utilisant un modèle de diffusion conditionné par la parole, des priors faciaux et un module de raffinement régional pour produire des résultats supérieurs aux approches existantes.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

Le papier présente ThinkMorph, un modèle unifié qui améliore le raisonnement multimodal en générant des chaînes de pensée intercalées et complémentaires entre texte et image, démontrant ainsi des capacités émergentes et des performances supérieures sur des tâches visuelles et hors domaine.

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang + 5 more2026-03-03💻 cs

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

Cette étude établit que la segmentation d'images médicales suit une loi d'échelle limitée par la géométrie anatomique, où l'augmentation topologique améliore l'efficacité des données sans modifier la structure fondamentale de cette loi.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

VeCoR -- Velocity Contrastive Regularization for Flow Matching

Le papier propose VeCoR, une méthode de régularisation contrastive de la vitesse qui améliore la stabilité et la fidélité perceptuelle des modèles de Flow Matching en ajoutant une supervision négative pour éviter les trajectoires hors-manifold, ce qui se traduit par des réductions significatives du FID sur des tâches de génération d'images.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

Le papier présente UltraViCo, une méthode sans entraînement qui résout les problèmes de répétition et de dégradation de qualité lors de l'extrapolation de la durée des vidéos en supprimant la dispersion de l'attention au-delà de la fenêtre d'entraînement, permettant ainsi d'étendre les limites d'extrapolation jusqu'à quatre fois la longueur originale.

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

L'article présente ReSAM, un cadre d'apprentissage auto-prompté qui adapte le modèle Segment Anything (SAM) à l'imagerie de télédétection en utilisant uniquement des annotations ponctuelles via une boucle itérative de raffinement, de requête et de renforcement pour surmonter les écarts de domaine et améliorer la segmentation sans nécessiter d'annotations complètes.

M. Naseer Subhani2026-03-03💻 cs

InnoGym: Benchmarking the Innovation Potential of AI Agents

Ce papier présente InnoGym, le premier cadre d'évaluation conçu pour mesurer systématiquement le potentiel d'innovation des agents IA en combinant des métriques de gain de performance et de nouveauté méthodologique sur des tâches réelles, révélant ainsi un décalage crucial entre créativité et robustesse.

Jintian Zhang, Kewei Xu, Jingsheng Zheng + 10 more2026-03-03💬 cs.CL

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

AdaptVision est un nouveau paradigme de modèles vision-langage qui optimise l'efficacité computationnelle en acquérant de manière adaptative et progressive les tokens visuels nécessaires via un outil de recadrage et un apprentissage par renforcement découpé, surpassant ainsi les méthodes existantes en précision tout en réduisant considérablement le nombre de tokens utilisés.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Ce papier propose FARL, un cadre novateur qui améliore la généralisation en peu d'exemples des modèles vision-langage en utilisant l'analyse de Fourier pour désenchevêtrer explicitement les structures et les styles visuels via un mécanisme d'attention croisée dual.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

← Précédent Suivant →