cs.CV articles | Gist.Science

Building a Mind Palace: Structuring Environment-Grounded Semantic Graphs for Effective Long Video Analysis with LLMs

Ce papier présente VideoMindPalace, un nouveau cadre qui structure les moments clés des vidéos en graphes sémantiques topologiques inspirés de la « méthode des lieux » pour améliorer la compréhension des vidéos longues par les modèles de langage vision, accompagné d'un benchmark dédié pour évaluer le raisonnement humain.

Zeyi Huang, Yuyang Ji, Xiaofang Wang + 11 more2026-03-05💻 cs

DCENWCNet: A Deep CNN Ensemble Network for White Blood Cell Classification with LIME-Based Explainability

Cet article propose le DCENWCNet, un réseau d'ensemble de CNN innovant combinant trois architectures pour améliorer la classification des globules blancs avec une précision supérieure et une interprétabilité accrue grâce à la méthode LIME.

Sibasish Dhibar2026-03-05🤖 cs.AI

Token Adaptation via Side Graph Convolution for Efficient Fine-tuning of 3D Point Cloud Transformers

Cet article propose STAG, une méthode de fine-tuning paramétriquement efficace pour les Transformers de nuages de points 3D qui utilise un réseau latéral à convolution graphique pour réduire considérablement les coûts computationnels et mémoire tout en maintenant une précision comparable, et introduit le nouveau benchmark PCC13 pour l'évaluation.

Takahiko Furuya2026-03-05💻 cs

A dataset of high-resolution plantar pressures for gait analysis across varying footwear and walking speeds

Cet article présente le jeu de données UNB StepUP-P150, une base de données publique de haute résolution contenant plus de 200 000 empreintes plantaires issues de 150 individus marchant à différentes vitesses et avec divers types de chaussures, conçue pour favoriser les avancées en reconnaissance biométrique de la démarche, en biomécanique et en apprentissage profond.

Robyn Larracy, Angkoon Phinyomark, Ala Salehi + 5 more2026-03-05🤖 cs.LG

Generative Human Geometry Distribution

Cet article propose une nouvelle méthode de distribution géométrique générative qui, en encodant les distributions sous forme de cartes de caractéristiques 2D et en utilisant des modèles SMPL comme domaine, permet de générer des géométries humaines réalistes avec des détails vestimentaires précis et une amélioration de 57 % de la qualité par rapport aux méthodes existantes.

Xiangjun Tang, Biao Zhang, Peter Wonka2026-03-05💻 cs

Implicit U-KAN2.0: Dynamic, Efficient and Interpretable Medical Image Segmentation

Cet article présente Implicit U-KAN 2.0, une nouvelle architecture de segmentation d'images médicales basée sur des équations différentielles neuronales d'ordre deux et des couches MultiKAN, qui améliore l'interprétabilité, la performance théorique et l'efficacité computationnelle par rapport aux méthodes existantes.

Chun-Wun Cheng, Yining Zhao, Yanqi Cheng + 3 more2026-03-05🤖 cs.LG

Beyond Accuracy: What Matters in Designing Well-Behaved Image Classification Models?

Cette étude propose une analyse à grande échelle de neuf dimensions de qualité au-delà de la simple précision pour les modèles de classification d'images, révélant l'impact des paradigmes d'entraînement et des architectures, et introduisant le score QUBA pour évaluer et classer ces modèles de manière holistique.

Robin Hesse, Doğukan Bağcı, Bernt Schiele + 2 more2026-03-05🤖 cs.LG

Beyond the Encoder: Joint Encoder-Decoder Contrastive Pre-Training Improves Dense Prediction

Ce papier présente DeCon, un cadre d'apprentissage auto-supervisé qui améliore les tâches de prédiction dense en pré-entraînant conjointement l'encodeur et le décodeur via une perte contrastive pondérée, surpassant ainsi les méthodes traditionnelles axées uniquement sur l'encodeur.

Sébastien Quetin, Tapotosh Ghosh, Farhad Maleki2026-03-05💻 cs

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

Cet article présente un cadre unifié de synthèse d'interactions humain-objet qui exploite les modèles vision-langage pour générer automatiquement des politiques de mouvement et des fonctions de récompense via une nouvelle représentation dynamique relative, éliminant ainsi le besoin de données de capture de mouvement coûteuses ou d'ingénierie manuelle des récompenses.

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

Generating Fine Details of Entity Interactions

Ce papier propose un nouveau jeu de données axé sur les interactions et une méthode d'affinement par décomposition assistée par des modèles de langage multimodaux pour améliorer la génération d'images text-to-image riches en interactions complexes entre objets.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Cet article présente Inception, la première attaque de jailbreak multi-tours exploitant les mécanismes de mémoire des systèmes de génération d'images par texte pour contourner les filtres de sécurité en divisant et en récursant les intentions malveillantes, surpassant ainsi les méthodes existantes avec un taux de réussite supérieur de 20 %.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

Cet article présente le CSASN, un cadre d'apprentissage multitâche innovant intégrant un réseau à double branche avec mécanismes d'attention pour surmonter les défis de l'hétérogénéité morphologique et du déséquilibre des données dans le diagnostic par ultrasons des rares carcinomes thyroïdiens.

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Cet article caractérise le motif de bruit de défocalisation synthétique (SDNP) propre aux portraits iPhone, propose une méthode pour le modéliser et l'estimer précisément, et démontre son utilité pour la traçabilité des appareils ainsi que pour améliorer la fiabilité de l'authentification de source photographique en masquant les zones affectées.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Ce papier propose MoB, une méthode de pruning de tokens visuels fondée sur la théorie du recouvrement et une formulation bi-objectif, qui résout le compromis inhérent entre l'alignement et la préservation visuelle pour offrir une accélération significative des modèles multimodaux avec une perte de performance négligeable.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

Cette étude présente une analyse comparative des modèles de langage et des systèmes OCR traditionnels pour la reconnaissance du texte urdien dans les journaux, en introduisant le jeu de données UNB et en démontrant que le fine-tuning des LLMs sur de petits échantillons permet d'atteindre des performances supérieures malgré la complexité du script Nastaliq et la qualité variable des scans.

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Cet article propose une méthode simple et rapide appelée « Feature Mixing » pour la synthèse d'anomalies multimodales, accompagnée d'un nouveau jeu de données nommé CARLA-OOD, afin d'améliorer la détection et la segmentation des données hors distribution avec des performances de pointe et une accélération significative.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Cet article présente le jeu de données BAH, un ensemble multimodal de vidéos annoté par des experts pour la reconnaissance automatique de l'ambivalence et de l'hésitation dans les interventions numériques de changement de comportement, comblant ainsi un vide critique pour le développement de modèles d'apprentissage machine adaptés.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

Ce papier présente TADA, un cadre d'augmentation ciblée par modèles de diffusion qui améliore la généralisation des classificateurs d'images en synthétisant uniquement les exemples difficiles à apprendre, surpassant ainsi les méthodes d'augmentation massive tout en réduisant les coûts computationnels.

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

Structural Vibration Monitoring with Diffractive Optical Processors

Cet article présente un système de surveillance des vibrations structurelles à faible consommation et peu coûteux, intégrant une couche diffractive optimisée conjointement avec un réseau de neurones peu profond pour reconstruire en temps réel les spectres de vibrations 3D des infrastructures sans nécessiter de réseaux de capteurs denses.

Yuntian Wang, Zafer Yilmaz, Yuhang Li + 5 more2026-03-05🔬 physics.optics

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

Le papier présente EgoWorld, un cadre novateur qui reconstruit des vues à la première personne à partir d'observations exocentriques riches (nuages de points, poses 3D des mains et descriptions textuelles) en utilisant des modèles de diffusion, surpassant ainsi les méthodes actuelles et démontrant une forte généralisation sur plusieurs jeux de données.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

← Précédent Suivant →