cs.CV articles | Gist.Science

Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

Cet article propose RALI, un nouvel algorithme qui aligne directement les images sur des représentations textuelles généralisables apprises par des modèles de langage multimodal via l'apprentissage par renforcement, permettant ainsi d'atteindre des performances d'évaluation de la qualité d'image comparables à celles des modèles de raisonnement tout en réduisant drastiquement les paramètres et le temps d'inférence.

Shijie Zhao, Xuanyu Zhang, Weiqi Li + 4 more2026-03-04💻 cs

Map the Flow: Revealing Hidden Pathways of Information in VideoLLMs

Cette étude utilise l'interprétabilité mécanistique pour révéler les voies d'information internes des modèles de langage vidéo (VideoLLMs), démontrant que leur raisonnement temporel suit un schéma cohérent d'interactions inter-images et d'intégration multimodale, ce qui permet d'améliorer la performance en éliminant jusqu'à 58 % des connexions d'attention superflues.

Minji Kim, Taekyung Kim, Bohyung Han2026-03-04💻 cs

Self-Aug: Query and Entropy Adaptive Decoding for Large Vision-Language Models

Cet article présente « Self-Aug », une méthode de décodage sans entraînement pour les grands modèles vision-langage qui combine une augmentation sémantique adaptative à la requête et un seuillage basé sur l'entropie afin de réduire significativement les hallucinations et d'améliorer la cohérence factuelle.

Eun Woo Im, Muhammad Kashif Ali, Vivek Gupta2026-03-04🤖 cs.AI

Inpainting the Red Planet: Diffusion Models for the Reconstruction of Martian Environments in Virtual Reality

Cet article propose une méthode de reconstruction des terrains martiens pour la réalité virtuelle utilisant un modèle de diffusion inconditionnel entraîné sur des données HiRISE, qui surpasse significativement les techniques d'interpolation traditionnelles en termes de précision géométrique et de similarité perceptuelle.

Giuseppe Lorenzo Catalano, Agata Marta Soccini2026-03-04🤖 cs.AI

CASR-Net: An Image Processing-focused Deep Learning-based Coronary Artery Segmentation and Refinement Network for X-ray Coronary Angiogram

Cet article présente le CASR-Net, un réseau d'apprentissage profond innovant en trois étapes intégrant un prétraitement avancé et une architecture UNet-DenseNet121 avec décodeur Self-ONN, conçu pour améliorer la précision de la segmentation et du raffinement des artères coronaires sur des angiogrammes X-ray afin de soutenir le diagnostic clinique.

Alvee Hassan, Rusab Sarmun, Muhammad E. H. Chowdhury + 4 more2026-03-04🤖 cs.AI

Kinematify: Open-Vocabulary Synthesis of High-DoF Articulated Objects

Ce papier présente Kinematify, un cadre automatisé qui synthétise des objets articulés à haut degré de liberté directement à partir d'images RGB ou de descriptions textuelles en inférant leurs topologies cinématiques et en estimant leurs paramètres articulaires pour des applications robotiques.

Jiawei Wang, Dingyou Wang, Jiaming Hu + 3 more2026-03-04💻 cs

Online Data Curation for Object Detection via Marginal Contributions to Dataset-level Average Precision

Ce papier présente DetGain, une méthode de curation de données en ligne pour la détection d'objets qui sélectionne dynamiquement les images les plus informatives en estimant leur contribution marginale à la précision moyenne (AP) du jeu de données, améliorant ainsi la performance et la robustesse des modèles de détection.

Zitang Sun, Masakazu Yoshimura, Junji Otsuka + 2 more2026-03-04💻 cs

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Le papier présente PrismAudio, un cadre novateur pour la génération vidéo-à-audio qui intègre l'apprentissage par renforcement avec une décomposition en chaînes de pensée spécialisées et des récompenses multidimensionnelles, résolvant ainsi les problèmes d'entrelacement des objectifs et atteignant des performances de pointe grâce à une méthode d'optimisation efficace et un nouveau benchmark rigoureux.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

Ce papier présente Markov-VAR, un nouveau modèle de génération visuelle autoregressive qui remplace la dépendance contextuelle complète par un processus markovien avec prédiction d'échelle et vecteur d'historique glissant, permettant d'améliorer significativement la qualité des images tout en réduisant drastiquement la consommation mémoire.

Yu Zhang, Jingyi Liu, Yiwei Shi + 4 more2026-03-04💻 cs

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

Ce papier présente ALARM, un cadre de détection d'anomalies visuelles basé sur des modèles de langage multimodaux (MLLM) intégrant une quantification de l'incertitude et des techniques d'assurance qualité pour assurer une prise de décision fiable dans des environnements complexes.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

Cet article propose SSMP, une nouvelle méthode de prédiction masquée auto-évaluative et auto-corrective qui surpasse les approches existantes pour la génération automatique de bandes-annonces en modélisant le contexte bidirectionnel et en imitant le processus itératif de correction humaine.

Sidan Zhu, Hongteng Xu, Dixin Luo2026-03-04💻 cs

Value Gradient Guidance for Flow Matching Alignment

Cet article propose VGG-Flow, une méthode de finetuning basée sur l'appariement de gradients qui utilise la théorie du contrôle optimal pour aligner efficacement les modèles de Flow Matching avec les préférences humaines tout en préservant leur distribution prior, comme démontré sur Stable Diffusion 3.

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

Ce papier présente AVI-Edit, un cadre d'édition d'instances vidéo synchronisées avec l'audio qui intègre un raffineur de masques sensible à la granularité et un agent audio à rétroaction autonome pour offrir un contrôle spatio-temporel précis, le tout soutenu par un nouveau jeu de données à grande échelle.

Haojie Zheng, Shuchen Weng, Jingqi Liu + 3 more2026-03-04💻 cs

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

Ce papier présente CHAMMI-75, un jeu de données ouvert de 75 études biologiques hétérogènes en microscopie multicanal, conçu pour entraîner des modèles adaptatifs capables de quantifier la morphologie cellulaire sur n'importe quel type d'image microscopique.

Vidit Agrawal, John Peters, Tyler N. Thompson + 13 more2026-03-04🤖 cs.LG

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

L'article présente UniDrive-WM, un modèle du monde unifié basé sur des modèles vision-langage qui intègre la compréhension de la scène, la planification de trajectoire et la génération d'images futures pour améliorer la sécurité et la précision de la conduite autonome.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling

Cette étude démontre que l'utilisation d'images visuelles en très basse résolution (8x8 pixels) comme alternative aux jetons discrets permet d'atteindre des performances comparables à l'approche traditionnelle pour la modélisation du langage chinois, tout en offrant un démarrage rapide significativement plus efficace.

Shuyang Xiang, Hao Guan2026-03-04🤖 cs.AI

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

Cette étude propose LGANet++, un cadre d'enregistrement d'images déformables non supervisé intégrant un mécanisme d'attention local-global et une décomposition d'image, qui surpasse les méthodes de l'état de l'art sur plusieurs scénarios cliniques en améliorant la précision, la robustesse et la généralisabilité.

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

Graph Recognition via Subgraph Prediction

Ce papier présente GraSP, une méthode simple et universelle pour la reconnaissance de graphes visuels via la prédiction de sous-graphes, capable de s'adapter à divers contextes sans modifications spécifiques à la tâche.

André Eberhard, Gerhard Neumann, Pascal Friederich2026-03-04🤖 cs.LG

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

MLV-Edit est un cadre d'édition vidéo sans entraînement qui surmonte les défis de la cohérence temporelle et de l'efficacité computationnelle pour les vidéos de plusieurs minutes grâce à une stratégie de division et de conquête intégrant le mélange de vélocité et les puits d'attention.

Yangyi Cao, Yuanhang Li, Lan Chen + 1 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Le papier présente VideoTemp-o3, un cadre unifié d'« agentic thinking-with-videos » qui harmonise l'ancrage temporel et la compréhension vidéo en surmontant les limites des méthodes actuelles grâce à une localisation dynamique, un pipeline d'entraînement optimisé et des données de haute qualité.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

← Précédent Suivant →