cs.CV articles | Gist.Science

Local-Global Prompt Learning via Sparse Optimal Transport

L'article propose SOT-GLP, une méthode d'apprentissage de prompts combinant des alignements globaux et locaux via un transport optimal équilibré et parcimonieux pour améliorer la précision en few-shot et la détection hors distribution des modèles vision-langage.

Deniz Kizaro\u{g}lu, Ülku Tuncer Küçüktas, Emre Çakmakyurdu, Alptekin Temizel2026-03-10💻 cs

$\Delta$ VLA: Prior-Guided Vision-Language-Action Models via World Knowledge Variation

Le papier présente $\Delta$ VLA, un cadre d'action vision-langage guidé par des connaissances antérieures qui améliore la manipulation robotique en modélisant les variations du monde plutôt que les états futurs absolus, grâce à des modules d'extraction de priorités, de quantification des variations latentes et d'attention conditionnelle.

Yijie Zhu, Jie He, Rui Shao, Kaishen Yuan, Tao Tan, Xiaochen Yuan, Zitong Yu2026-03-10💻 cs

Diffusion-Based Data Augmentation for Image Recognition: A Systematic Analysis and Evaluation

Ce papier présente UniDiffDA, un cadre analytique unifié qui décompose l'augmentation de données basée sur la diffusion en trois composants clés, permettant une évaluation systématique et équitable de différentes stratégies pour améliorer la reconnaissance d'images en situation de données limitées.

Zekun Li, Yinghuan Shi, Yang Gao, Dong Xu2026-03-10💻 cs

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

Ce papier propose les Prototypes Adaptatifs de Variété (AMP), un cadre utilisant l'optimisation riemannienne sur la variété de Stiefel pour représenter les prototypes de classe comme des bases orthonormées, empêchant ainsi l'effondrement des prototypes et améliorant simultanément la précision de classification et la fidélité causale dans les modèles interprétables.

Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng2026-03-10💻 cs

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Cette étude présente un modèle de flux rectifié capable de générer en temps réel des IRM cérébrales post-traitement réalistes pour les patients atteints de gliome, à partir d'IRM pré-thérapeutiques et de cartes de dose de radiothérapie, afin d'optimiser la planification thérapeutique adaptative.

Selena Huisman, Nordin Belkacemi, Vera Keil, Joost Verhoeff, Szabolcs David2026-03-10💻 cs

Real-Time Drone Detection in Event Cameras via Per-Pixel Frequency Analysis

Cet article présente DDHF, une méthode analytique en temps réel utilisant la transformée de Fourier discrète non uniforme (NDFT) pour détecter et localiser les drones via les caméras événementielles en exploitant les signatures fréquentielles de leurs rotors, surpassant ainsi les performances et la latence des détecteurs basés sur l'apprentissage profond comme YOLO.

Michael Bezick, Majid Sahin2026-03-10💻 cs

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

L'article présente AULLM++, un cadre de raisonnement basé sur les grands modèles de langage qui améliore la reconnaissance des micro-expressions en fusionnant des indices visuels multi-granulaires et des corrélations structurelles entre les unités d'action pour surmonter les limitations des méthodes précédentes et atteindre des performances de pointe.

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

Le papier propose StructBiHOI, un cadre de modélisation articulaire structurée qui, en découplant la planification temporelle des articulations de l'affinement des poses et en utilisant un débruiteur diffusion inspiré de Mamba, permet une génération stable et réaliste d'interactions main-objet bimanuelles à long horizon.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

Le papier présente SPIRAL, un cadre en boucle fermée permettant une génération vidéo à long terme contrôlée par des actions sémantiques grâce à un processus itératif de planification, d'action et de réflexion qui améliore la cohérence temporelle et l'alignement sémantique par rapport aux modèles existants.

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee2026-03-10💻 cs

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

Cet article propose GRACE, un cadre d'apprentissage incrémental de classe adaptatif qui équilibre plasticité et stabilité en alternant cycles d'expansion, d'évaluation de la saturation et de compression du modèle, permettant ainsi d'atteindre des performances de pointe tout en réduisant l'empreinte mémoire de 73 % par rapport aux méthodes purement expansives.

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz, Aizea Lojo2026-03-10🤖 cs.LG

Information Maximization for Long-Tailed Semi-Supervised Domain Generalization

Cet article propose IMaX, une méthode simple et efficace basée sur le principe d'InfoMax et un objectif entropique α pour améliorer la généralisation de domaine semi-supervisée face aux distributions de classes à longue traîne.

Leo Fillioux, Omprakash Chakraborty, Quentin Gopée, Pierre Marza, Paul-Henry Cournède, Stergios Christodoulidis, Maria Vakalopoulou, Ismail Ben Ayed, Jose Dolz2026-03-10💻 cs

Can Vision-Language Models Solve the Shell Game?

Ce papier présente VET-Bench, un test diagnostique révélant les limites des modèles vision-langage actuels dans le suivi d'entités visuellement identiques, et propose la méthode SGCoT qui, en générant des trajectoires explicites, permet d'atteindre une précision supérieure à 90 % sur cette tâche.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

Alfa: Attentive Low-Rank Filter Adaptation for Structure-Aware Cross-Domain Personalized Gaze Estimation

Le papier présente Alfa, une méthode d'adaptation attentive à faible rang qui repondère les filtres pré-entraînés via une décomposition en valeurs singulières et un mécanisme d'attention pour personnaliser efficacement l'estimation du regard sur de nouveaux utilisateurs avec peu d'échantillons non étiquetés.

He-Yen Hsieh, Wei-Te Mark Ting, H. T. Kung2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Cet article présente X-AVDT, un détecteur de deepfakes robuste qui exploite les mécanismes d'attention croisée audio-visuelle internes aux générateurs via l'inversion DDIM, et introduit le nouveau jeu de données multimodal MMDF pour améliorer la détection et la généralisation face aux synthèses génératives émergentes.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

Ce papier propose l'alignement auto-réalisateur visuel (VSFA), une méthode sans étiquettes qui améliore la sécurité des modèles multimodaux en les exposant à des images liées aux menaces, ce qui leur permet d'intérioriser une vigilance implicite et de façonner des personnalités orientées vers la sécurité.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

Spherical-GOF: Geometry-Aware Panoramic Gaussian Opacity Fields for 3D Scene Reconstruction

Le papier présente Spherical-GOF, un cadre de rendu panoramique basé sur les Champs d'Opacité Gaussienne qui opère directement dans l'espace sphérique pour surmonter les distorsions géométriques des modèles 3DGS existants et offrir une reconstruction 3D plus précise et cohérente pour les images omnidirectionnelles.

Zhe Yang, Guoqiang Zhao, Sheng Wu, Kai Luo, Kailun Yang2026-03-10💻 cs

OccTrack360: 4D Panoptic Occupancy Tracking from Surround-View Fisheye Cameras

Ce papier présente OccTrack360, un nouveau benchmark pour le suivi d'occupation 4D panoptique à partir de caméras grand-angle, ainsi que la méthode FoSOcc qui améliore la localisation spatiale et la projection sphérique pour établir une référence solide dans ce domaine.

Yongzhi Lin, Kai Luo, Yuanfan Zheng, Hao Shi, Mengfei Duan, Yang Liu, Kailun Yang2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

Les auteurs présentent l'Interactive World Simulator, un cadre utilisant des modèles de cohérence pour générer des simulations robotiques interactives, rapides et physiquement cohérentes, permettant d'entraîner et d'évaluer des politiques d'imitation avec des performances comparables à celles obtenues avec des données réelles.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Online Sparse Synthetic Aperture Radar Imaging

Cet article propose l'algorithme Online FISTA, une méthode de reconstruction en ligne par codage parcimonieux qui permet l'imagerie SAR avec des contraintes de mémoire et de calcul réduites, facilitant ainsi des tâches de reconnaissance de cibles en temps réel sur des drones autonomes.

Conor Flynn, Radoslav Ivanov, Birsen Yazici2026-03-10💻 cs

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

Le papier présente DualFlexKAN, une architecture innovante de réseaux de Kolmogorov-Arnold à double étage qui, en découplant les transformations d'entrée et les activations de sortie, permet de combiner expressivité et efficacité computationnelle pour surpasser les MLP et les KAN classiques avec une fraction du nombre de paramètres.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

← Précédent Suivant →

cs.CV