cs.CV articles | Gist.Science

SRasP: Self-Reorientation Adversarial Style Perturbation for Cross-Domain Few-Shot Learning

Cet article propose SRasP, une nouvelle méthode de perturbation de style auto-réorientée qui améliore l'apprentissage few-shot cross-domaine en stabilisant les gradients et en favorisant la convergence vers des minima plus plats grâce à une guidance sémantique globale et une optimisation multi-objectifs.

Wenqian Li, Pengfei Fang, Hui Xue2026-03-06🤖 cs.LG

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Ce papier propose un cadre d'inférence adaptatif pour les modèles Vision-Language-Action qui, en analysant la complexité de l'état perçu via des embeddings visuels, permet de décider dynamiquement d'agir immédiatement, de raisonner sur des scénarios ambigus ou de s'abstenir d'agir pour éviter les échecs catastrophiques, optimisant ainsi l'allocation des ressources computationnelles.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

SSR-GS: Separating Specular Reflection in Gaussian Splatting for Glossy Surface Reconstruction

Ce papier présente SSR-GS, un cadre de reconstruction de surfaces brillantes qui améliore le splatting gaussien 3D en modélisant les réflexions spéculaires directes et indirectes tout en intégrant des priors géométriques et visuels pour atténuer l'impact des zones dominées par les reflets.

Ningjing Fan, Yiqun Wang2026-03-06🤖 cs.AI

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

Cette étude démontre que le recadrage simple des poumons par une boîte englobante permet de réduire l'apprentissage de raccourcis raciaux dans les modèles de diagnostic par radiographie thoracique tout en préservant leur précision, contournant ainsi le compromis habituel entre équité et performance.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

Cet article propose une méthode de calibration générique de caméra utilisant des images floues, qui estime simultanément les positions des caractéristiques et les fonctions d'étalement du point spatialement variables en exploitant des contraintes géométriques et un modèle d'illumination local pour surmonter le flou de mouvement inévitable lors de l'utilisation de tableaux d'étalonnage imprimés.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

L'article présente Mario, un cadre unifié qui améliore le raisonnement des grands modèles de langage sur des graphes multimodaux en résolvant les problèmes de cohérence intermodale et de préférence hétérogène grâce à un design de modèle vision-langage conditionné par le graphe et à un mécanisme d'instruction adaptatif.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Le papier présente Logi-PAR, un cadre innovant d'inférence logique pour la reconnaissance des activités des patients qui intègre des règles différentiables explicites afin de fournir des explications auditrices et des interventions contrefactuelles, surpassant ainsi les modèles d'état de l'art sur des benchmarks cliniques.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

Cet article propose le cadre SCDL, une méthode plug-and-play qui atténue les biais de supervision et de représentation dans la segmentation d'images médicales semi-supervisée en apprenant des distributions de caractéristiques conditionnelles aux classes, améliorant ainsi significativement la détection des structures minoritaires sur les jeux de données Synapse et AMOS.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

Ce papier présente SPyCer, un réseau semi-supervisé guidé par la physique qui utilise l'attention contextuelle et des contraintes physiques pour estimer avec précision la température de l'air près du sol à partir d'images satellites, comblant ainsi le manque de données des capteurs au sol.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Cet article présente un système de tri textile automatisé piloté par un jumeau numérique qui intègre la perception multimodale et le raisonnement de modèles visuels et linguistiques (VLM) pour classer les vêtements et détecter les objets étrangers avec une grande précision dans des environnements industriels réalistes.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

Ce papier présente ICHOR, une approche d'apprentissage auto-supervisé basée sur des auto-encodeurs masqués 3D et entraînée sur un vaste ensemble de données multi-sites, qui permet d'obtenir des représentations robustes pour les cartes de débit sanguin cérébral en IRM de perfusion par marquage de spin artériel (ASL) et surpasse les méthodes existantes dans diverses tâches diagnostiques et de prédiction de qualité.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

Le CATNet est un cadre adaptatif de perception coopérative qui résout les défis de la latence temporelle et du bruit multi-source grâce à une synchronisation spatio-temporelle, un débruitage par ondelettes et une sélection de caractéristiques dynamique, surpassant ainsi les méthodes existantes dans des conditions de trafic complexes.

Gong Chen, Chaokun Zhang, Tao Tang + 3 more2026-03-06💻 cs

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

Le papier présente Wiki-R1, un cadre d'apprentissage par renforcement à curriculum qui améliore l'état de l'art en VQA basé sur les connaissances en générant et en échantillonnant des données de difficulté progressive pour optimiser le raisonnement des modèles multimodaux.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Cette étude démontre que pour optimiser la détection hors distribution dans les Vision Transformers, il est préférable de combiner l'analyse des couches intermédiaires et des modules spécifiques, en privilégiant les activations du réseau feed-forward lors de forts décalages de distribution et les sorties normalisées de l'attention multi-têtes lorsque le décalage est faible.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

Le papier présente WebChain, le plus grand ensemble de données open-source de traces d'interaction web annotées par des humains, qui permet d'entraîner des agents web performants grâce à une alignement triple des données visuelles, structurelles et d'action, ainsi qu'à une méthode d'entraînement dual décorrélant l'ancrage spatial de la planification.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

Le papier présente Fusion4CA, une méthode de détection d'objets 3D qui améliore le cadre BEVFusion en exploitant pleinement les données RGB via des modules d'alignement contrastif, une branche auxiliaire et des adaptateurs cognitifs, permettant d'atteindre une performance supérieure avec moins d'époques d'entraînement et une augmentation minimale des paramètres.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers

Ce papier présente SpectralCache, une méthode d'accélération sans entraînement pour les Transformers de diffusion qui exploite les non-uniformités temporelles, de profondeur et fréquentielles du processus de débruitage pour atteindre un gain de vitesse de 2,46x tout en préservant la qualité de l'image.

Guandong Li2026-03-06💻 cs

Dark3R: Learning Structure from Motion in the Dark

Le papier présente Dark3R, un cadre novateur permettant la reconstruction 3D et la synthèse de nouvelles vues dans des conditions de très faible luminosité (SNR < -4 dB) en adaptant des modèles de fondation 3D via une distillation enseignant-élève et en s'entraînant uniquement sur des paires d'images brutes bruitées et propres, sans supervision 3D.

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

OpenFrontier est un cadre de navigation sans entraînement qui permet aux robots de se déplacer efficacement dans des environnements ouverts en utilisant des frontières visuelles comme ancres sémantiques pour intégrer des modèles vision-langage, éliminant ainsi le besoin de reconstruction 3D dense ou d'affinage spécifique.

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Cet article présente ORMOT, une nouvelle tâche de suivi multi-objets omnidirectionnel guidé par le langage, accompagnée du jeu de données ORSet et du cadre ORTrack basé sur un modèle vision-langage de grande taille, conçus pour surmonter les limitations du champ de vue des méthodes existantes.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

← Précédent Suivant →