cs.CV articles | Gist.Science

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Le papier présente COMPASS, un cadre pratique qui améliore l'efficacité et la précision de la prédiction conformale pour les métriques de segmentation médicale en effectuant une calibration directe dans l'espace des représentations des réseaux de neurones, produisant ainsi des intervalles d'incertitude plus étroits et robustes face aux décalages de covariables.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

CircuitSense: A Hierarchical MLLM Benchmark Bridging Visual Comprehension and Symbolic Reasoning in Engineering Design Process

Le papier présente CircuitSense, une nouvelle norme de référence hiérarchique évaluant la capacité des grands modèles multimodaux à passer de la compréhension visuelle de schémas de circuits à la dérivation de modèles mathématiques symboliques, révélant ainsi un écart critique entre la reconnaissance visuelle et le raisonnement analytique dans les modèles actuels.

Arman Akbari, Jian Gao, Yifei Zou + 6 more2026-03-03💻 cs

Towards Interpretable Visual Decoding with Attention to Brain Representations

Cet article présente NeuroAdapter, un cadre de décodage visuel qui conditionne directement un modèle de diffusion latent sur des représentations cérébrales pour améliorer la qualité de reconstruction et l'interprétabilité des contributions corticales via un nouveau cadre bidirectionnel IBBI.

Pinyuan Feng, Hossein Adeli, Wenxuan Guo + 3 more2026-03-03💻 cs

DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation

Le papier présente DiffInk, un cadre innovant combinant un auto-encodeur variationnel (InkVAE) et un transformateur de diffusion latente (InkDiT) pour générer des lignes d'écriture manuscrite en ligne complètes avec une haute fidélité stylistique et une précision des glyphes, surpassant les méthodes actuelles en efficacité et en cohérence structurelle.

Wei Pan, Huiguo He, Hiuyi Cheng + 2 more2026-03-03💻 cs

Advancing Multi-agent Traffic Simulation via R1-Style Reinforcement Fine-Tuning

Le papier présente SMART-R1, un nouveau paradigme d'affinement par renforcement de style R1 qui améliore la simulation du trafic multi-agents en alignant les comportements sur les préférences humaines via une stratégie itérative SFT-RFT-SFT, permettant d'atteindre les performances les plus avancées sur le Waymo Open Sim Agents Challenge.

Muleilan Pei, Shaoshuai Shi, Shaojie Shen2026-03-03💻 cs

EditReward: A Human-Aligned Reward Model for Instruction-Guided Image Editing

Ce papier présente EditReward, un modèle de récompense open-source entraîné sur un vaste ensemble de données de préférences humaines annotées par des experts, qui surpasse les modèles existants en alignement avec les préférences humaines et permet d'identifier des sous-ensembles de données de haute qualité pour améliorer l'entraînement des modèles d'édition d'images.

Keming Wu, Sicong Jiang, Max Ku + 3 more2026-03-03💬 cs.CL

Stylos: Multi-View 3D Stylization with Single-Forward Gaussian Splatting

Stylos est un cadre innovant de transfert de style 3D basé sur une seule passe avant de splatting gaussien qui génère des scènes stylisées géométriquement fidèles et cohérentes sur plusieurs vues, sans nécessiter d'optimisation par scène ni de poses précalculées, en utilisant une architecture Transformer couplée à une perte de style 3D basée sur des voxels.

Hanzhou Liu, Jia Huang, Mi Lu + 2 more2026-03-03💻 cs

Culture In a Frame: C $^3$ B as a Comic-Based Benchmark for Multimodal Culturally Awareness

Cet article présente C³B, un nouveau benchmark multilingue et multitâche basé sur des bandes dessinées conçu pour évaluer et améliorer les capacités de conscience culturelle des modèles de langage multimodaux, en surmontant les limites des benchmarks existants grâce à une difficulté progressive et à des scénarios interculturels complexes.

Yuchen Song, Andong Chen, Wenxin Zhu + 4 more2026-03-03🤖 cs.AI

LVTINO: LAtent Video consisTency INverse sOlver for High Definition Video Restoration

L'article présente LVTINO, le premier solveur inverse zéro-shot pour la restauration vidéo haute définition, qui exploite des modèles de consistance vidéo pour garantir une cohérence temporelle et une haute fidélité avec une efficacité computationnelle supérieure aux méthodes existantes basées sur des modèles image par image.

Alessio Spagnoletti, Andrés Almansa, Marcelo Pereyra2026-03-03📊 stat

DragFlow: Unleashing DiT Priors with Region Based Supervision for Drag Editing

Le papier présente DragFlow, un cadre innovant qui exploite les puissants priors du modèle DiT FLUX via une supervision basée sur des régions et des contraintes de gradient pour surmonter les limitations des méthodes de retouche par glissement traditionnelles et établir un nouvel état de l'art dans ce domaine.

Zihan Zhou, Shilin Lu, Shuli Leng + 4 more2026-03-03🤖 cs.AI

ChainMPQ: Interleaved Text-Image Reasoning Chains for Mitigating Relation Hallucinations

Le papier présente ChainMPQ, une méthode sans entraînement qui atténue les hallucinations relationnelles dans les modèles vision-langage en utilisant des chaînes de raisonnement intercalées texte-image guidées par des questions multi-perspectives et des mémoires accumulées.

Yike Wu, Yiwei Wang, Yujun Cai2026-03-03🤖 cs.AI

VA-Adapter: Adapting Ultrasound Foundation Model to Echocardiography Probe Guidance

Ce papier présente le VA-Adapter, un adaptateur vision-action qui intègre un modèle fondamental d'échographie pour guider les sondes échocardiographiques en inférant la structure cardiaque tridimensionnelle à partir de séquences historiques, surpassant ainsi les modèles existants avec une fraction de leurs paramètres.

Teng Wang, Haojun Jiang, Yuxuan Wang + 4 more2026-03-03💻 cs

TTOM: Test-Time Optimization and Memorization for Compositional Video Generation

Ce papier présente TTOM, un cadre sans entraînement qui améliore la génération vidéo compositionnelle en alignant les modèles de fondation vidéo sur des layouts spatio-temporels via une optimisation et une mémorisation paramétriques en temps d'exécution.

Leigang Qu, Ziyang Wang, Na Zheng + 3 more2026-03-03💬 cs.CL

Splat the Net: Radiance Fields with Splattable Neural Primitives

Ce papier présente les « splattable neural primitives », une nouvelle représentation volumétrique qui combine l'expressivité des modèles neuronaux et l'efficacité du splatting des primitives 3D pour permettre une synthèse de vue nouvelle de haute qualité et en temps réel avec dix fois moins de primitives et six fois moins de paramètres que les méthodes existantes.

Xilong Zhou, Bao-Huy Nguyen, Loïc Magne + 3 more2026-03-03💻 cs

LinearSR: Unlocking Linear Attention for Stable and Efficient Image Super-Resolution

Ce papier présente LinearSR, un cadre holistique qui surmonte les défis de stabilité et d'efficacité de l'attention linéaire pour la super-résolution d'images photoréalistes en proposant une stratégie d'arrêt précoce guidée, une architecture MoE basée sur le SNR et un paradigme de guidage léger, permettant d'atteindre une qualité perceptuelle de pointe avec une efficacité computationnelle exceptionnelle.

Xiaohui Li, Shaobin Zhuang, Shuo Cao + 6 more2026-03-03💻 cs

PHyCLIP: $\ell_1$ -Product of Hyperbolic Factors Unifies Hierarchy and Compositionality in Vision-Language Representation Learning

Le papier présente PHyCLIP, une méthode qui unifie la hiérarchie et la compositionnalité dans l'apprentissage de représentations vision-langage en utilisant une métrique de produit $\ell_1$ sur des facteurs hyperboliques, surpassant ainsi les approches existantes sur diverses tâches d'évaluation.

Daiki Yoshikawa, Takashi Matsubara2026-03-03🤖 cs.LG

Incomplete Multi-Label Image Recognition by Co-learning Semantic-Aware Features and Label Recovery

Cet article propose un cadre d'apprentissage coopératif (CSL) qui résout simultanément l'apprentissage de caractéristiques sémantiques robustes et la récupération des labels manquants pour la reconnaissance d'images multi-étiquettes incomplète, surpassant ainsi les méthodes de l'état de l'art sur plusieurs jeux de données publics.

Zhi-Fen He, Ren-Dong Xie, Bo Li + 2 more2026-03-03💻 cs

UniFlow: A Unified Pixel Flow Tokenizer for Visual Understanding and Generation

Le papier présente UniFlow, un tokenizer visuel unifié qui résout le compromis traditionnel entre la compréhension et la génération d'images en combinant une distillation auto-adaptative pour préserver les caractéristiques sémantiques avec un décodeur de flux de pixels par patch pour une reconstruction fidèle, permettant ainsi de surpasser les modèles existants sur des tâches d'analyse et de création visuelle.

Zhengrong Yue, Haiyu Zhang, Xiangyu Zeng + 7 more2026-03-03💻 cs

There is No VAE: End-to-End Pixel-Space Generative Modeling via Self-Supervised Pre-training

Cet article présente un cadre d'apprentissage en deux étapes qui permet d'entraîner des modèles génératifs directement dans l'espace des pixels avec des performances de pointe sur ImageNet, surpassant les méthodes basées sur les VAE et réduisant considérablement les coûts de calcul.

Jiachen Lei, Keli Liu, Julius Berner + 4 more2026-03-03💻 cs

Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning

Inspiré par le circuit olfactif de la mouche, Fly-CL est un cadre bio-inspiré qui améliore l'apprentissage continu de représentations en résolvant efficacement la multicolinéarité et en réduisant considérablement le temps d'entraînement tout en maintenant des performances de pointe.

Heming Zou, Yunliang Zang, Wutong Xu + 1 more2026-03-03🤖 cs.AI

← Précédent Suivant →

cs.CV