cs.CV articles | Gist.Science

PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation

Le papier présente PrismAudio, un cadre novateur pour la génération vidéo-à-audio qui intègre l'apprentissage par renforcement avec une décomposition en chaînes de pensée spécialisées et des récompenses multidimensionnelles, résolvant ainsi les problèmes d'entrelacement des objectifs et atteignant des performances de pointe grâce à une méthode d'optimisation efficace et un nouveau benchmark rigoureux.

Huadai Liu, Kaicheng Luo, Wen Wang + 6 more2026-03-04⚡ eess

Markovian Scale Prediction: A New Era of Visual Autoregressive Generation

Ce papier présente Markov-VAR, un nouveau modèle de génération visuelle autoregressive qui remplace la dépendance contextuelle complète par un processus markovien avec prédiction d'échelle et vecteur d'historique glissant, permettant d'améliorer significativement la qualité des images tout en réduisant drastiquement la consommation mémoire.

Yu Zhang, Jingyi Liu, Yiwei Shi + 4 more2026-03-04💻 cs

ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification

Ce papier présente ALARM, un cadre de détection d'anomalies visuelles basé sur des modèles de langage multimodaux (MLLM) intégrant une quantification de l'incertitude et des techniques d'assurance qualité pour assurer une prise de décision fiable dans des environnements complexes.

Congjing Zhang, Feng Lin, Xinyi Zhao + 5 more2026-03-04🤖 cs.AI

Self-Paced and Self-Corrective Masked Prediction for Movie Trailer Generation

Cet article propose SSMP, une nouvelle méthode de prédiction masquée auto-évaluative et auto-corrective qui surpasse les approches existantes pour la génération automatique de bandes-annonces en modélisant le contexte bidirectionnel et en imitant le processus itératif de correction humaine.

Sidan Zhu, Hongteng Xu, Dixin Luo2026-03-04💻 cs

Value Gradient Guidance for Flow Matching Alignment

Cet article propose VGG-Flow, une méthode de finetuning basée sur l'appariement de gradients qui utilise la théorie du contrôle optimal pour aligner efficacement les modèles de Flow Matching avec les préférences humaines tout en préservant leur distribution prior, comme démontré sur Stable Diffusion 3.

Zhen Liu, Tim Z. Xiao, Carles Domingo-Enrich + 2 more2026-03-04🤖 cs.LG

Audio-sync Video Instance Editing with Granularity-Aware Mask Refiner

Ce papier présente AVI-Edit, un cadre d'édition d'instances vidéo synchronisées avec l'audio qui intègre un raffineur de masques sensible à la granularité et un agent audio à rétroaction autonome pour offrir un contrôle spatio-temporel précis, le tout soutenu par un nouveau jeu de données à grande échelle.

Haojie Zheng, Shuchen Weng, Jingqi Liu + 3 more2026-03-04💻 cs

CHAMMI-75: Pre-training multi-channel models with heterogeneous microscopy images

Ce papier présente CHAMMI-75, un jeu de données ouvert de 75 études biologiques hétérogènes en microscopie multicanal, conçu pour entraîner des modèles adaptatifs capables de quantifier la morphologie cellulaire sur n'importe quel type d'image microscopique.

Vidit Agrawal, John Peters, Tyler N. Thompson + 13 more2026-03-04🤖 cs.LG

UniDrive-WM: Unified Understanding, Planning and Generation World Model For Autonomous Driving

L'article présente UniDrive-WM, un modèle du monde unifié basé sur des modèles vision-langage qui intègre la compréhension de la scène, la planification de trajectoire et la génération d'images futures pour améliorer la sécurité et la précision de la conduite autonome.

Zhexiao Xiong, Xin Ye, Burhan Yaman + 5 more2026-03-04💻 cs

Hot-Start from Pixels: Low-Resolution Visual Tokens for Chinese Language Modeling

Cette étude démontre que l'utilisation d'images visuelles en très basse résolution (8x8 pixels) comme alternative aux jetons discrets permet d'atteindre des performances comparables à l'approche traditionnelle pour la modélisation du langage chinois, tout en offrant un démarrage rapide significativement plus efficace.

Shuyang Xiang, Hao Guan2026-03-04🤖 cs.AI

Unsupervised Deformable Image Registration with Local-Global Attention and Image Decomposition

Cette étude propose LGANet++, un cadre d'enregistrement d'images déformables non supervisé intégrant un mécanisme d'attention local-global et une décomposition d'image, qui surpasse les méthodes de l'état de l'art sur plusieurs scénarios cliniques en améliorant la précision, la robustesse et la généralisabilité.

Zhengyong Huang, Xingwen Sun, Xuting Chang + 5 more2026-03-04⚡ eess

Graph Recognition via Subgraph Prediction

Ce papier présente GraSP, une méthode simple et universelle pour la reconnaissance de graphes visuels via la prédiction de sous-graphes, capable de s'adapter à divers contextes sans modifications spécifiques à la tâche.

André Eberhard, Gerhard Neumann, Pascal Friederich2026-03-04🤖 cs.LG

MLV-Edit: Towards Consistent and Highly Efficient Editing for Minute-Level Videos

MLV-Edit est un cadre d'édition vidéo sans entraînement qui surmonte les défis de la cohérence temporelle et de l'efficacité computationnelle pour les vidéos de plusieurs minutes grâce à une stratégie de division et de conquête intégrant le mélange de vélocité et les puits d'attention.

Yangyi Cao, Yuanhang Li, Lan Chen + 1 more2026-03-04💻 cs

VideoTemp-o3: Harmonizing Temporal Grounding and Video Understanding in Agentic Thinking-with-Videos

Le papier présente VideoTemp-o3, un cadre unifié d'« agentic thinking-with-videos » qui harmonise l'ancrage temporel et la compréhension vidéo en surmontant les limites des méthodes actuelles grâce à une localisation dynamique, un pipeline d'entraînement optimisé et des données de haute qualité.

Wenqi Liu, Yunxiao Wang, Shijie Ma + 14 more2026-03-04🤖 cs.AI

WristMIR: Coarse-to-Fine Region-Aware Retrieval of Pediatric Wrist Radiographs with Radiology Report-Driven Learning

WristMIR est un cadre d'extraction de radiographies du poignet pédiatrique qui exploite des rapports radiologiques structurés et une localisation spécifique aux os pour améliorer la précision du diagnostic des fractures et l'aide à la décision clinique grâce à une recherche d'images guidée par les régions anatomiques.

Mert Sonmezer, Serge Vasylechko, Duygu Atasoy + 2 more2026-03-04💻 cs

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Cette étude présente le Garbage Dataset (GD), un ensemble de données public de 12 259 images couvrant 10 catégories de déchets, qui a été rigoureusement validé et utilisé pour évaluer des modèles d'apprentissage profond, démontrant que l'EfficientNetV2S atteint les meilleures performances (95,13 % de précision) tout en mettant en lumière les défis liés au déséquilibre des classes et à la complexité de l'arrière-plan pour la ségrégation automatisée des déchets.

Suman Kunwar2026-03-04💻 cs

EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

L'article présente EO-VAE, un autoencodeur variationnel multi-capteurs capable de tokenizer efficacement des combinaisons flexibles de canaux spectraux pour l'observation de la Terre, surpassant les approches existantes en fidélité de reconstruction.

Nils Lehmann, Yi Wang, Zhitong Xiong + 1 more2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Le papier présente MedXIAOHE, un modèle fondationnel médical vision-langage qui atteint des performances de pointe grâce à un cadre d'entraînement continu axé sur les entités et un apprentissage par renforcement pour le raisonnement, surpassant les systèmes multimodaux fermés tout en garantissant une génération de rapports fiables et ancrée dans des preuves.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

L'article UniTAF propose un cadre modulaire unifiant la synthèse vocale et la génération faciale à partir de l'audio pour faciliter le transfert de caractéristiques internes et améliorer la cohérence entre la parole et les expressions faciales, en validant ainsi la faisabilité de cette approche d'unification plutôt qu'en se concentrant sur la qualité de génération.

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

CRAFT-LoRA est une méthode de personnalisation de la génération d'images qui améliore la fidélité du contenu et la cohérence stylistique grâce à un ajustement de rang contraint, une agrégation d'adaptateurs guidée par des invites et un schéma de guidance sans réentraînement, permettant ainsi un contrôle précis et une fusion stable des modules LoRA.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Ce papier présente CFE-Bench, un nouveau benchmark multimodal évaluant les capacités de raisonnement des grands modèles de langage sur plus de 20 domaines STEM à l'aide de problèmes d'examen universitaires authentiques, révélant que même les modèles les plus avancés peinent à maintenir des états intermédiaires cohérents dans des solutions multi-étapes malgré des performances correctes sur des sous-questions isolées.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

← Précédent Suivant →