UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

Le papier présente UniFlow, un tokenizer visuel unifié qui résout le compromis traditionnel entre la compréhension et la génération d'images en combinant une distillation auto-adaptative pour préserver les caractéristiques sémantiques avec un décodeur de flux de pixels par patch pour une reconstruction fidèle, permettant ainsi de surpasser les modèles existants sur des tâches d'analyse et de création visuelle.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

Inspiré par le circuit olfactif de la mouche, Fly-CL est un cadre bio-inspiré qui améliore l'apprentissage continu de représentations en résolvant efficacement la multicolinéarité et en réduisant considérablement le temps d'entraînement tout en maintenant des performances de pointe.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

Mono4DGS-HDR: High Dynamic Range 4D Gaussian Splatting from Alternating-exposure Monocular Videos

Le papier présente Mono4DGS-HDR, un système pionnier utilisant une approche d'optimisation en deux étapes basée sur le Gaussian Splatting pour reconstruire des scènes 4D à haute dynamique (HDR) à partir de vidéos monoculaires non calibrées avec des expositions alternées, tout en assurant une cohérence temporelle grâce à une régularisation spécifique.

Jinfeng Liu, Lingtong Kong, Mi Zhou + 2 more2026-03-03💻 cs

LightMem: Lightweight and Efficient Memory-Augmented Generation

Le papier présente LightMem, un système de mémoire léger et efficace inspiré du modèle humain d'Atkinson-Shiffrin qui, grâce à une organisation en trois étapes (mémoire sensorielle, court terme et long terme avec mise à jour hors ligne), améliore significativement la précision des LLMs tout en réduisant drastiquement l'utilisation de tokens et les appels API par rapport aux méthodes existantes.

Jizhan Fang, Xinle Deng, Haoming Xu + 9 more2026-03-03💬 cs.CL

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

Le papier présente "Brain-IT", une méthode basée sur un Transformer d'interaction cérébrale qui reconstruit fidèlement des images à partir de données fMRI en exploitant des clusters fonctionnels partagés pour prédire des caractéristiques sémantiques et structurelles, surpassant les approches actuelles tout en nécessitant beaucoup moins de données d'entraînement.

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Cette étude propose une méthode novatrice générant des vidéos de visages parlants haute résolution exclusivement à partir d'un seul signal audio, en utilisant un modèle de diffusion conditionné par la parole, des priors faciaux et un module de raffinement régional pour produire des résultats supérieurs aux approches existantes.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

Le papier présente UltraViCo, une méthode sans entraînement qui résout les problèmes de répétition et de dégradation de qualité lors de l'extrapolation de la durée des vidéos en supprimant la dispersion de l'attention au-delà de la fenêtre d'entraînement, permettant ainsi d'étendre les limites d'extrapolation jusqu'à quatre fois la longueur originale.

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

L'article présente ReSAM, un cadre d'apprentissage auto-prompté qui adapte le modèle Segment Anything (SAM) à l'imagerie de télédétection en utilisant uniquement des annotations ponctuelles via une boucle itérative de raffinement, de requête et de renforcement pour surmonter les écarts de domaine et améliorer la segmentation sans nécessiter d'annotations complètes.

M. Naseer Subhani2026-03-03💻 cs

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

AdaptVision est un nouveau paradigme de modèles vision-langage qui optimise l'efficacité computationnelle en acquérant de manière adaptative et progressive les tokens visuels nécessaires via un outil de recadrage et un apprentissage par renforcement découpé, surpassant ainsi les méthodes existantes en précision tout en réduisant considérablement le nombre de tokens utilisés.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL