cs.CV articles | Gist.Science

Human-Object Interaction via Automatically Designed VLM-Guided Motion Policy

Cet article présente un cadre unifié de synthèse d'interactions humain-objet qui exploite les modèles vision-langage pour générer automatiquement des politiques de mouvement et des fonctions de récompense via une nouvelle représentation dynamique relative, éliminant ainsi le besoin de données de capture de mouvement coûteuses ou d'ingénierie manuelle des récompenses.

Zekai Deng, Ye Shi, Kaiyang Ji + 3 more2026-03-05💻 cs

Generating Fine Details of Entity Interactions

Ce papier propose un nouveau jeu de données axé sur les interactions et une méthode d'affinement par décomposition assistée par des modèles de langage multimodaux pour améliorer la génération d'images text-to-image riches en interactions complexes entre objets.

Xinyi Gu, Jiayuan Mao2026-03-05🤖 cs.LG

When Memory Becomes a Vulnerability: Towards Multi-turn Jailbreak Attacks against Text-to-Image Generation Systems

Cet article présente Inception, la première attaque de jailbreak multi-tours exploitant les mécanismes de mémoire des systèmes de génération d'images par texte pour contourner les filtres de sécurité en divisant et en récursant les intentions malveillantes, surpassant ainsi les méthodes existantes avec un taux de réussite supérieur de 20 %.

Shiqian Zhao, Jiayang Liu, Yiming Li + 9 more2026-03-05💻 cs

Intelligent Diagnosis Using Dual-Branch Attention Network for Rare Thyroid Carcinoma Recognition with Ultrasound Imaging

Cet article présente le CSASN, un cadre d'apprentissage multitâche innovant intégrant un réseau à double branche avec mécanismes d'attention pour surmonter les défis de l'hétérogénéité morphologique et du déséquilibre des données dans le diagnostic par ultrasons des rares carcinomes thyroïdiens.

Peiqi Li, Yincheng Gao, Renxing Li + 10 more2026-03-05💻 cs

Apple's Synthetic Defocus Noise Pattern: Characterization and Forensic Applications

Cet article caractérise le motif de bruit de défocalisation synthétique (SDNP) propre aux portraits iPhone, propose une méthode pour le modéliser et l'estimer précisément, et démontre son utilité pour la traçabilité des appareils ainsi que pour améliorer la fiabilité de l'authentification de source photographique en masquant les zones affectées.

David Vázquez-Padín, Fernando Pérez-González, Pablo Pérez-Miguélez2026-03-05💻 cs

Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Ce papier propose MoB, une méthode de pruning de tokens visuels fondée sur la théorie du recouvrement et une formulation bi-objectif, qui résout le compromis inhérent entre l'alignement et la préservation visuelle pour offrir une accélération significative des modèles multimodaux avec une perte de performance négligeable.

Yangfu Li, Hongjian Zhan, Tianyi Chen + 2 more2026-03-05💬 cs.CL

From Press to Pixels: Evolving Urdu Text Recognition

Cette étude présente une analyse comparative des modèles de langage et des systèmes OCR traditionnels pour la reconnaissance du texte urdien dans les journaux, en introduisant le jeu de données UNB et en démontrant que le fine-tuning des LLMs sur de petits échantillons permet d'atteindre des performances supérieures malgré la complexité du script Nastaliq et la qualité variable des scans.

Samee Arif, Sualeha Farid2026-03-05💻 cs

Extremely Simple Multimodal Outlier Synthesis for Out-of-Distribution Detection and Segmentation

Cet article propose une méthode simple et rapide appelée « Feature Mixing » pour la synthèse d'anomalies multimodales, accompagnée d'un nouveau jeu de données nommé CARLA-OOD, afin d'améliorer la détection et la segmentation des données hors distribution avec des performances de pointe et une accélération significative.

Moru Liu, Hao Dong, Jessica Kelly + 2 more2026-03-05🤖 cs.AI

BAH Dataset for Ambivalence/Hesitancy Recognition in Videos for Digital Behavioural Change

Cet article présente le jeu de données BAH, un ensemble multimodal de vidéos annoté par des experts pour la reconnaissance automatique de l'ambivalence et de l'hésitation dans les interventions numériques de changement de comportement, comblant ainsi un vide critique pour le développement de modèles d'apprentissage machine adaptés.

Manuela González-González, Soufiane Belharbi, Muhammad Osama Zeeshan + 6 more2026-03-05🤖 cs.LG

Do We Need All the Synthetic Data? Targeted Image Augmentation via Diffusion Models

Ce papier présente TADA, un cadre d'augmentation ciblée par modèles de diffusion qui améliore la généralisation des classificateurs d'images en synthétisant uniquement les exemples difficiles à apprendre, surpassant ainsi les méthodes d'augmentation massive tout en réduisant les coûts computationnels.

Dang Nguyen, Jiping Li, Jinghao Zheng + 1 more2026-03-05🤖 cs.LG

Structural Vibration Monitoring with Diffractive Optical Processors

Cet article présente un système de surveillance des vibrations structurelles à faible consommation et peu coûteux, intégrant une couche diffractive optimisée conjointement avec un réseau de neurones peu profond pour reconstruire en temps réel les spectres de vibrations 3D des infrastructures sans nécessiter de réseaux de capteurs denses.

Yuntian Wang, Zafer Yilmaz, Yuhang Li + 5 more2026-03-05🔬 physics.optics

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

Le papier présente EgoWorld, un cadre novateur qui reconstruit des vues à la première personne à partir d'observations exocentriques riches (nuages de points, poses 3D des mains et descriptions textuelles) en utilisant des modèles de diffusion, surpassant ainsi les méthodes actuelles et démontrant une forte généralisation sur plusieurs jeux de données.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

Partial Weakly-Supervised Oriented Object Detection

Cet article propose le premier cadre de détection d'objets orientés partiellement faiblement supervisé (PWOOD), qui combine un modèle étudiant sensible à l'orientation et à l'échelle avec une stratégie de filtrage des pseudo-étiquettes pour exploiter efficacement de grandes quantités de données non étiquetées et surpasser les algorithmes semi-supervisés traditionnels tout en réduisant les coûts d'annotation.

Mingxin Liu, Peiyuan Zhang, Yuan Liu + 8 more2026-03-05💻 cs

Fast Equivariant Imaging: Acceleration for Unsupervised Learning via Augmented Lagrangian and Auxiliary PnP Denoisers

Cet article propose Fast Equivariant Imaging (FEI), un cadre d'apprentissage non supervisé qui accélère considérablement l'entraînement des réseaux d'imagerie sans données de référence en reformulant le problème via la méthode du lagrangien augmenté et des débruiteurs plug-and-play, offrant ainsi une accélération de 10 fois et de meilleures performances de généralisation par rapport aux méthodes existantes.

Guixian Xu, Jinglai Li, Junqi Tang2026-03-05🤖 cs.LG

D2Dewarp: Dual Dimensions Geometric Representation Learning Based Document Image Dewarping

Ce papier présente D2Dewarp, une méthode d'éclaircissement d'images de documents qui améliore la rectification en apprenant des représentations géométriques sur deux dimensions (horizontale et verticale) via un module de fusion coordonné et en introduisant un nouveau jeu de données d'entraînement annoté automatiquement nommé DocDewarpHV.

Heng Li, Xiangping Wu, Qingcai Chen2026-03-05💻 cs

VITA: Vision-to-Action Flow Matching Policy

Le papier présente VITA, un cadre d'apprentissage de politiques par matching de flux sans bruit ni conditionnement visuel explicite, qui relie directement les représentations visuelles aux actions latentes via un autoencodeur et un décodage ancré pour accélérer l'inférence tout en maintenant des performances de pointe.

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

Classification of Histopathology Slides with Persistent Homology Convolutions

Cet article présente une méthode novatrice utilisant des convolutions d'homologie persistante pour capturer des informations topologiques locales dans les lames d'histopathologie, surpassant ainsi les modèles CNN conventionnels en termes de précision de classification et de robustesse aux hyperparamètres.

Shrunal Pothagoni, Benjamin Schweinhart2026-03-05💻 cs

Towards Generalizable AI-Generated Image Detection via Image-Adaptive Prompt Learning

Cet article propose l'apprentissage de prompts adaptatifs aux images (IAPL), une nouvelle approche qui ajuste dynamiquement les prompts d'encodage pour chaque image testée afin de surmonter les limites de généralisation des méthodes actuelles et d'atteindre des performances de pointe dans la détection d'images générées par l'IA.

Yiheng Li, Zichang Tan, Guoqing Xu + 3 more2026-03-05💻 cs

GaitSnippet: Gait Recognition Beyond Unordered Sets and Ordered Sequences

Le papier présente GaitSnippet, une nouvelle méthode de reconnaissance de la démarche qui surpasse les approches par ensembles et séquences en modélisant la démarche comme une composition d'actions individuelles (snippets) pour intégrer efficacement des contextes temporels multi-échelles, validée par des résultats de pointe sur plusieurs jeux de données.

Saihui Hou, Chenye Wang, Wenpeng Lang + 2 more2026-03-05💻 cs

Reinforcing Video Reasoning Segmentation to Think Before It Segments

Cet article présente Veason-R1, un modèle de langage-vision entraîné par optimisation de politique relative de groupe (GRPO) et initialisé par un raisonnement en chaîne (CoT), qui améliore significativement la segmentation vidéo par raisonnement en renforçant la cohérence spatio-temporelle et en réduisant les hallucinations.

Sitong Gong, Lu Zhang, Yunzhi Zhuge + 3 more2026-03-05💻 cs

← Précédent Suivant →