cs.CV articles | Gist.Science

The Garbage Dataset (GD): A Multi-Class Image Benchmark for Automated Waste Segregation

Cette étude présente le Garbage Dataset (GD), un ensemble de données public de 12 259 images couvrant 10 catégories de déchets, qui a été rigoureusement validé et utilisé pour évaluer des modèles d'apprentissage profond, démontrant que l'EfficientNetV2S atteint les meilleures performances (95,13 % de précision) tout en mettant en lumière les défis liés au déséquilibre des classes et à la complexité de l'arrière-plan pour la ségrégation automatisée des déchets.

Suman Kunwar2026-03-04💻 cs

EO-VAE: Towards A Multi-sensor Tokenizer for Earth Observation Data

L'article présente EO-VAE, un autoencodeur variationnel multi-capteurs capable de tokenizer efficacement des combinaisons flexibles de canaux spectraux pour l'observation de la Terre, surpassant les approches existantes en fidélité de reconstruction.

Nils Lehmann, Yi Wang, Zhitong Xiong + 1 more2026-03-04💻 cs

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Le papier présente MedXIAOHE, un modèle fondationnel médical vision-langage qui atteint des performances de pointe grâce à un cadre d'entraînement continu axé sur les entités et un apprentissage par renforcement pour le raisonnement, surpassant les systèmes multimodaux fermés tout en garantissant une génération de rapports fiables et ancrée dans des preuves.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

UniTAF: A Modular Framework for Joint Text-to-Speech and Audio-to-Face Modeling

L'article UniTAF propose un cadre modulaire unifiant la synthèse vocale et la génération faciale à partir de l'audio pour faciliter le transfert de caractéristiques internes et améliorer la cohérence entre la parole et les expressions faciales, en validant ainsi la faisabilité de cette approche d'unification plutôt qu'en se concentrant sur la qualité de génération.

Qiangong Zhou, Nagasaka Tomohiro2026-03-04⚡ eess

CRAFT-LoRA: Content-Style Personalization via Rank-Constrained Adaptation and Training-Free Fusion

CRAFT-LoRA est une méthode de personnalisation de la génération d'images qui améliore la fidélité du contenu et la cohérence stylistique grâce à un ajustement de rang contraint, une agrégation d'adaptateurs guidée par des invites et un schéma de guidance sans réentraînement, permettant ainsi un contrôle précis et une fusion stable des modules LoRA.

Yu Li, Yujun Cai, Chi Zhang2026-03-04💻 cs

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Ce papier présente CFE-Bench, un nouveau benchmark multimodal évaluant les capacités de raisonnement des grands modèles de langage sur plus de 20 domaines STEM à l'aide de problèmes d'examen universitaires authentiques, révélant que même les modèles les plus avancés peinent à maintenir des états intermédiaires cohérents dans des solutions multi-étapes malgré des performances correctes sur des sous-questions isolées.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

From Pairs to Sequences: Track-Aware Policy Gradients for Keypoint Detection

Ce papier présente TraqPoint, un cadre d'apprentissage par renforcement novateur qui reformule la détection de points clés comme un problème de décision séquentielle pour optimiser directement la qualité des trajectoires sur des séquences d'images, surpassant ainsi les méthodes existantes dans des tâches de vision 3D complexes.

Yepeng Liu, Hao Li, Liwen Yang + 8 more2026-03-04💻 cs

Training-Free Multi-Concept Image Editing

Ce papier propose CDS, un cadre unifié et sans entraînement pour l'édition d'images multi-concepts qui surpasse les méthodes existantes en préservant la fidélité des instances et en intégrant plusieurs concepts visuels directement dans le processus de diffusion sans nécessiter d'échantillons de référence.

Niki Foteinopoulou, Ignas Budvytis, Stephan Liwicki2026-03-04💻 cs

Uni-Animator: Towards Unified Visual Colorization

Le papier présente Uni-Animator, un nouveau cadre basé sur les Diffusion Transformers qui unifie la colorisation de croquis d'images et de vidéos en surmontant les défis de transfert de couleur imprécis, de préservation des détails physiques et de cohérence temporelle grâce à des mécanismes innovants d'embodiment de patchs, de renforcement des détails physiques et d'encodage RoPE dynamique.

Xinyuan Chen, Yao Xu, Shaowen Wang + 2 more2026-03-04💻 cs

3D Modality-Aware Pre-training for Vision-Language Model in MRI Multi-organ Abnormality Detection

Cet article présente MedMAP, un cadre de pré-entraînement modale pour les modèles vision-langage qui améliore la détection d'anomalies multi-organes dans les IRM 3D grâce à une nouvelle base de données et une alignement spécifique aux modalités médicales.

Haowen Zhu, Ning Yin, Xiaogen Zhou2026-03-04🤖 cs.AI

APPO: Attention-guided Perception Policy Optimization for Video Reasoning

Cet article présente APPO, un algorithme d'optimisation de politique guidé par l'attention qui améliore la perception fine des modèles de raisonnement vidéo en utilisant des récompenses denses au niveau des tokens, démontrant ainsi que l'optimisation de la perception est plus cruciale et rentable que l'augmentation de la capacité de raisonnement pure.

Henghui Du, Chang Zhou, Xi Chen + 1 more2026-03-04💻 cs

Leveraging GenAI for Segmenting and Labeling Centuries-old Technical Documents

Cet article présente une approche innovante combinant le modèle de segmentation SAM2, les outils de génération de texte Florence2 et ChatGPT, ainsi qu'une ontologie spécialisée, pour segmenter et étiqueter automatiquement les traités de construction navale des XVIe et XVIIe siècles, afin de faciliter la curation et l'accessibilité de ces documents historiques précieux malgré le manque de données d'entraînement.

Carlos Monroy, Benjamin Navarro2026-03-04⚡ eess

A Novel Evolutionary Method for Automated Skull-Face Overlay in Computer-Aided Craniofacial Superimposition

Cet article présente Lilium, une nouvelle méthode évolutive automatisée qui améliore la précision et la robustesse de la superposition crânio-faciale en modélisant explicitement la variabilité des tissus mous via une représentation conique 3D optimisée par un algorithme d'évolution différentielle.

Práxedes Martínez-Moreno, Andrea Valsecchi, Pablo Mesejo + 3 more2026-03-04🤖 cs.AI

GLIDE-Reg: Global-to-Local Deformable Registration Using Co-Optimized Foundation and Handcrafted Features

L'article présente GLIDE-Reg, une méthode d'enregistrement déformable global-à-local qui fusionne des caractéristiques sémantiques globales issues de modèles de fondation avec des descripteurs locaux MIND pour surpasser l'état de l'art en termes de robustesse et de précision sur des cohortes pulmonaires variées.

Yunzheng Zhu, Aichi Chien, Kimaya kulkarni + 5 more2026-03-04⚡ eess

IDER: IDempotent Experience Replay for Reliable Continual Learning

Ce papier propose IDER, une méthode de réapprentissage continu novatrice basée sur la propriété d'idempotence qui améliore la fiabilité des prédictions, réduit l'oubli catastrophique et augmente la précision tout en étant compatible avec les méthodes de réentraînement existantes.

Zhanwang Liu, Yuting Li, Haoyuan Gao + 4 more2026-03-04🤖 cs.AI

BornoViT: A Novel Efficient Vision Transformer for Bengali Handwritten Basic Characters Classification

Ce papier présente BornoViT, un modèle Vision Transformer léger et efficace conçu pour classifier les caractères et chiffres manuscrits bengalis avec une grande précision tout en minimisant les besoins computationnels, le rendant idéal pour les environnements aux ressources limitées.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04🤖 cs.LG

ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration

Le papier présente ShiftLUT, un cadre novateur pour la restauration d'images qui combine un module de décalage spatial apprenable, une architecture asymétrique à double branche et une stratégie de compression de table de recherche pour atteindre un champ récepteur maximal et des performances supérieures tout en maintenant une efficacité computationnelle et un stockage réduits pour les dispositifs embarqués.

Xiaolong Zeng, Yitong Yu, Shiyao Xiong + 4 more2026-03-04💻 cs

Learning to Weigh Waste: A Physics-Informed Multimodal Fusion Framework and Large-Scale Dataset for Commercial and Industrial Applications

Cet article présente le cadre Multimodal Weight Predictor (MWP) et le jeu de données Waste-Weight-10K, qui combinent des images RGB et des métadonnées physiques via une fusion multimodale pour estimer avec précision le poids des déchets industriels et commerciaux tout en fournissant des explications interprétables.

Md. Adnanul Islam, Wasimul Karim, Md Mahbub Alam + 7 more2026-03-04💻 cs

PreciseCache: Precise Feature Caching for Efficient and High-fidelity Video Generation

Le papier présente PreciseCache, un cadre plug-and-play qui accélère la génération vidéo sans compromettre la qualité en détectant et en sautant précisément les calculs redondants à l'aide de deux composants : LFCache pour la mise en cache par étape et BlockCache pour la mise en cache par bloc.

Jiangshan Wang, Kang Zhao, Jiayi Guo + 5 more2026-03-04💻 cs

Flow Matching-enabled Test-Time Refinement for Unsupervised Cardiac MR Registration

Le papier présente FlowReg, une méthode d'enregistrement d'images cardiaques IRM non supervisée basée sur l'appariement de flux et l'entraînement par reflu, qui permet un raffinement à l'inférence en quelques étapes avec des performances supérieures à l'état de l'art et une réduction de l'erreur d'estimation de la fraction d'éjection ventriculaire gauche.

Yunguan Fu, Wenjia Bai, Wen Yan + 3 more2026-03-04💻 cs

← Précédent Suivant →