cs.CV articles | Gist.Science

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

Le papier présente TP-Blend, un cadre léger et sans entraînement qui fusionne de manière précise un objet et un style distincts dans les modèles de diffusion en combinant une fusion d'attention croisée optimisée par transport optimal et une fusion d'attention auto-attentionnelle sensible aux détails via une normalisation instance.

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Copy-Trasform-Paste: Zero-Shot Object-Object Alignment Guided by Vision-Language and Geometric Constraints

Cet article propose une méthode sans apprentissage préalable pour l'alignement 3D zéro-shot de deux maillages à partir d'une description textuelle, en optimisant directement leur pose relative via des gradients CLIP et des contraintes géométriques pour obtenir des résultats sémantiquement fidèles et physiquement plausibles.

Rotem Gatenyo, Ohad Fried2026-03-03💻 cs

Counterfactual Explanations on Robust Perceptual Geodesics

Cet article présente les Perceptual Counterfactual Geodesics (PCG), une méthode qui génère des explications contrefactuelles en suivant des géodésiques dans un espace latent muni d'une métrique riemannienne perceptuelle, garantissant ainsi des transitions sémantiquement valides et robustes aux artefacts hors-manifold.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Le papier présente Vision-DeepResearch, un nouveau paradigme de recherche profonde multimodale qui intègre des capacités de recherche itérative multi-tours, multi-entités et multi-échelles dans les grands modèles de langage multimodaux via un entraînement par supervision et renforcement, surpassant ainsi les modèles existants et les flux de travail basés sur des modèles propriétaires avancés dans des scénarios réels bruyants.

Wenxuan Huang, Yu Zeng, Qiuchen Wang + 13 more2026-03-03🤖 cs.AI

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Cet article présente CAAD-3K, un nouveau benchmark, et un cadre d'apprentissage de compatibilité conditionnelle basé sur des représentations vision-langage pour détecter les anomalies contextuelles en modélisant la compatibilité sujet-environnement, surpassant ainsi les méthodes existantes sur plusieurs jeux de données.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning

Ce papier présente HitEmotion, un benchmark hiérarchique et une méthode d'apprentissage par renforcement (TMPO) guidés par la théorie de l'esprit pour améliorer le raisonnement émotionnel multimodal des grands modèles de langage en modélisant explicitement les états mentaux.

Meng Luo, Bobo Li, Shanqing Xu + 8 more2026-03-03💻 cs

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Cet article propose une méthode de quantisation post-entraînement novatrice pour les modèles de diffusion, qui améliore l'efficacité en apprenant à attribuer des poids optimaux aux échantillons de calibration afin d'aligner les gradients à travers les différents pas de temps.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

Ce papier présente CaCoVID, une nouvelle méthode de compression de tokens pour la compréhension vidéo qui utilise l'apprentissage par renforcement et une optimisation combinatoire pour sélectionner dynamiquement les tokens les plus contributifs aux réponses correctes, réduisant ainsi la surcharge computationnelle sans sacrifier la performance.

Yinchao Ma, Qiang Zhou, Zhibin Wang + 4 more2026-03-03🤖 cs.AI

CloDS: Visual-Only Unsupervised Cloth Dynamics Learning in Unknown Conditions

Ce papier présente CloDS, un cadre d'apprentissage non supervisé qui permet d'inférer la dynamique des tissus à partir de simples observations visuelles multi-vues sans connaissance préalable des propriétés physiques, en utilisant une approche de splatting gaussien sur maillage pour gérer les déformations complexes et les occlusions.

Yuliang Zhan, Jian Li, Wenbing Huang + 3 more2026-03-03🤖 cs.AI

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Ce papier présente le benchmark VDR-Bench, conçu pour évaluer de manière plus réaliste les capacités de recherche visuelle et textuelle des modèles de langage multimodaux en surmontant les limites des benchmarks existants, tout en proposant une méthode de recherche par recadrage itératif pour améliorer leurs performances.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Investigating Disability Representations in Text-to-Image Models

Cette étude examine les représentations des personnes handicapées dans les modèles de génération d'images comme Stable Diffusion XL et DALL-E 3, révélant des déséquilibres persistants et soulignant la nécessité d'évaluations continues pour promouvoir des portrayals plus inclusifs.

Yang Tian, Yu Fan, Liudmila Zavolokina + 1 more2026-03-03💬 cs.CL

RFDM: Residual Flow Diffusion Model for Efficient Causal Video Editing

Le papier présente RFDM, un modèle de diffusion causal et efficace qui édite des vidéos de longueur variable en prédisant les résidus entre les trames successives à partir d'un modèle image-à-image, surpassant ainsi les méthodes existantes tout en réduisant les coûts de calcul.

Mohammadreza Salehi, Mehdi Noroozi, Luca Morreale + 4 more2026-03-03💻 cs

Single-Slice-to-3D Reconstruction in Medical Imaging and Natural Objects: A Comparative Benchmark with SAM 3D

Cette étude comparative démontre que, bien que les modèles de reconstruction 3D à partir d'une seule tranche échouent à produire des volumes précis en raison de l'ambiguïté de profondeur, SAM3D se distingue par une meilleure fidélité topologique sur des données médicales, soulignant ainsi la nécessité cruciale d'adaptations spécifiques au domaine pour des reconstructions fiables.

Yan Luo, Advaith Ravishankar, Serena Liu + 2 more2026-03-03💻 cs

EchoTorrent: Towards Swift, Sustained, and Streaming Multi-Modal Video Generation

Le papier présente EchoTorrent, une architecture innovante combinant apprentissage multi-enseignants, calibration adaptative, forçage hybride et raffinement de décodeur VAE pour surmonter les compromis entre latence et stabilité temporelle dans la génération vidéo multimodale en flux continu.

Rang Meng, Yingjie Yin, Yuming Li + 1 more2026-03-03💻 cs

Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

Ce papier présente GPEReg-Net, une méthode innovante d'enregistrement d'images inter-domaines qui élimine l'estimation explicite des champs de déformation en factorisant les images via une attention temporelle positionnée et la normalisation d'instance adaptative, surpassant ainsi les méthodes existantes en précision et en vitesse sur des benchmarks réels et synthétiques.

Yiwen Wang, Jiahao Qin2026-03-03🤖 cs.AI

OmniCT: Towards a Unified Slice-Volume LVLM for Comprehensive CT Analysis

OmniCT est un modèle unifié de vision-langage pour l'analyse des tomodensitogrammes (CT) qui surpasse les méthodes existantes en combinant une cohérence spatiale volumétrique et une sémantique au niveau des organes pour répondre simultanément aux besoins de détection de détails microscopiques et de raisonnement spatial macroscopique.

Tianwei Lin, Zhongwei Qiu, Wenqiao Zhang + 12 more2026-03-03🤖 cs.AI

Prefer-DAS: Learning from Local Preferences and Sparse Prompts for Domain Adaptive Segmentation of Electron Microscopy

Le papier présente Prefer-DAS, une méthode innovante de segmentation adaptative pour la microscopie électronique qui intègre des prompts épars et des préférences humaines locales via des mécanismes d'optimisation de préférence pour surpasser les approches existantes tout en réduisant considérablement le besoin d'annotations.

Jiabao Chen, Shan Xiong, Jialin Peng2026-03-03💻 cs

Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images

Les auteurs proposent Hepato-LLaVA, un modèle multimodal spécialisé pour l'analyse des images de lésions hépatocellulaires à l'échelle de la lame entière, qui intègre un mécanisme d'attention topologique parcimonieux et un nouveau jeu de données clinique pour surmonter les limitations des approches actuelles en diagnostic du carcinome hépatocellulaire.

Yuxuan Yang, Zhonghao Yan, Yi Zhang + 6 more2026-03-03💻 cs

Leveraging Causal Reasoning Method for Explaining Medical Image Segmentation Models

Ce papier propose une méthode d'explication pour les modèles de segmentation d'images médicales basée sur le raisonnement causal, qui quantifie l'influence des régions d'entrée et des composants du réseau via l'effet moyen de traitement, démontrant ainsi une plus grande fidélité que les techniques existantes et révélant des hétérogénéités dans les stratégies perceptives des modèles.

Limai Jiang, Ruitao Xie, Bokai Yang + 6 more2026-03-03💻 cs

Dataset Color Quantization: A Training-Oriented Framework for Dataset-Level Compression

Ce papier propose le cadre DCQ, une méthode de compression au niveau des ensembles de données qui réduit la redondance dans l'espace colorimétrique tout en préservant les informations essentielles à l'entraînement des modèles, permettant ainsi d'améliorer les performances de formation même sous une compression agressive.

Chenyue Yu, Lingao Xiao, Jinhong Deng + 2 more2026-03-03🤖 cs.AI

← Précédent Suivant →