cs.CV articles | Gist.Science

Synthetic Defect Image Generation for Power Line Insulator Inspection Using Multimodal Large Language Models

Cet article propose une méthode sans entraînement utilisant des modèles de langage multimodaux pour générer des images synthétiques de défauts d'isolateurs électriques, augmentant ainsi significativement la précision de la classification dans des scénarios de données réelles limitées.

Xuesong Wang, Caisheng Wang2026-03-10💻 cs

TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

Le papier TALON propose un cadre d'apprentissage adaptatif en temps réel qui surpasse les méthodes existantes basées sur le hachage pour la découverte de catégories à la volée, en évitant la fragmentation des classes grâce à une mise à jour dynamique des prototypes sémantiques et de l'encodeur, ainsi qu'à une calibration des logits.

Yanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li2026-03-10💻 cs

From Reactive to Map-Based AI: Tuned Local LLMs for Semantic Zone Inference in Object-Goal Navigation

Cette étude propose une approche de navigation vers un objet cible qui remplace les agents réactifs par une intelligence artificielle basée sur des cartes, en intégrant un LLM local (Llama-2) finetuné pour inférer des zones sémantiques dans un graphe topologique afin d'optimiser l'exploration et d'améliorer significativement les taux de réussite.

Yudai Noda, Kanji Tanaka2026-03-10💻 cs

DSH-Bench: A Difficulty- and Scenario-Aware Benchmark with Hierarchical Subject Taxonomy for Subject-Driven Text-to-Image Generation

Ce papier présente DSH-Bench, un benchmark complet intégrant une taxonomie hiérarchique de sujets, une classification par difficulté et scénario, et une nouvelle métrique de cohérence d'identité (SICS) pour évaluer et guider l'amélioration des modèles de génération d'images text-to-image axés sur un sujet spécifique.

Zhenyu Hu, Qing Wang, Te Cao, Luo Liao, Longfei Lu, Liqun Liu, Shuang Li, Hang Chen, Mengge Xue, Yuan Chen, Chao Deng, Peng Shu, Huan Yu, Jie Jiang2026-03-10💻 cs

TrianguLang: Geometry-Aware Semantic Consensus for Pose-Free 3D Localization

Le papier présente TrianguLang, un cadre d'inférence directe et sans calibration qui réalise une localisation 3D guidée par le texte en intégrant une attention sémantique sensible à la géométrie pour concilier précision, cohérence et efficacité computationnelle.

Bryce Grant, Aryeh Rothenberg, Atri Banerjee, Peng Wang2026-03-10💻 cs

Adaptive MLP Pruning for Large Vision Transformers

Cet article propose une méthode d'élagage adaptif des perceptrons multicouches (AMP) qui réduit d'environ 40 % les paramètres et les FLOPs des grands transformateurs de vision sans perte significative de performance, en utilisant un critère d'entropie informationnelle sans étiquette pour évaluer l'importance des neurones et un algorithme de recherche binaire pour déterminer automatiquement le taux de compression.

Chengchao Shen2026-03-10💻 cs

SAMoE-VLA: A Scene Adaptive Mixture-of-Experts Vision-Language-Action Model for Autonomous Driving

Le papier présente SAMoE-VLA, un modèle d'action visuelle et linguistique adaptatif qui améliore la sécurité et les performances de la conduite autonome en remplaçant le routage d'experts basé sur les tokens par un mécanisme conditionné aux représentations de scène en vue aérienne, tout en intégrant un mécanisme d'attention causale intermodale pour un raisonnement temporel cohérent.

Zihan You, Hongwei Liu, Chenxu Dang, Zhe Wang, Sining Ang, Aoqi Wang, Yan Wang2026-03-10💻 cs

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

Le papier présente FoleyFlow, une méthode innovante qui améliore la génération audio coordonnée à partir de vidéos en alignant les encodeurs audio-visuels via un apprentissage par masquage pour garantir la cohérence sémantique et rythmique, puis en utilisant un flux conditionnel dynamique pour générer l'audio.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

UniGround: Universal 3D Visual Grounding via Training-Free Scene Parsing

Le papier présente UniGround, une méthode sans entraînement pour le repérage visuel 3D universel qui remplace les modèles pré-entraînés par un raisonnement géométrique et visuel libre d'entraînement afin de localiser des objets dans n'importe quel environnement 3D, établissant ainsi un nouvel état de l'art parmi les méthodes zero-shot.

Jiaxi Zhang, Yunheng Wang, Wei Lu, Taowen Wang, Weisheng Xu, Shuning Zhang, Yixiao Feng, Yuetong Fang, Renjing Xu2026-03-10💻 cs

Fast Low-light Enhancement and Deblurring for 3D Dark Scenes

Ce papier présente FLED-GS, un cadre rapide d'amélioration en faible luminosité et de défloutage pour la synthèse de nouvelles vues en 3D, qui reformule la restauration de scène comme un cycle alterné d'amélioration et de reconstruction pour surpasser les méthodes existantes tout en accélérant considérablement l'entraînement et le rendu.

Feng Zhang, Jinglong Wang, Ze Li, Yanghong Zhou, Yang Chen, Lei Chen, Xiatian Zhu2026-03-10💻 cs

VesselFusion: Diffusion Models for Vessel Centerline Extraction from 3D CT Images

L'article présente VesselFusion, un modèle de diffusion innovant qui améliore l'extraction des axes centraux des vaisseaux sanguins à partir d'images CT 3D en utilisant une représentation de la coarse à la fine et une agrégation par vote pour obtenir des résultats plus naturels et précis que les approches déterministes conventionnelles.

Soichi Mita, Shumpei Takezaki, Ryoma Bise2026-03-10💻 cs

MV-Fashion: Towards Enabling Virtual Try-On and Size Estimation with Multi-View Paired Data

Ce papier présente MV-Fashion, un vaste jeu de données vidéo multi-vues contenant des captures synchronisées de vêtements portés et de leurs versions plates, enrichi d'annotations sémantiques et de propriétés matérielles pour combler le manque de données réalistes et annotées dans les tâches de essayage virtuel et d'estimation de taille.

Hunor Laczkó, Libang Jia, Loc-Phat Truong, Diego Hernández, Sergio Escalera, Jordi Gonzalez, Meysam Madadi2026-03-10💻 cs

Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors

L'article présente Edged USLAM, un système hybride de localisation et cartographie (SLAM) visuel-inertiel qui intègre un front-end sensible aux contours et un module d'estimation de profondeur pour surmonter les limitations des caméras événementielles et assurer une localisation robuste et précise dans des conditions d'éclairage difficiles et lors de mouvements variés.

Sebnem Sarıözkan, Hürkan Sahin, Olaya Álvarez-Tuñón, Erdal Kayacan2026-03-10💻 cs

MERLIN: Building Low-SNR Robust Multimodal LLMs for Electromagnetic Signals

Le papier présente MERLIN, un cadre d'entraînement novateur pour les modèles de langage multimodaux robustes aux faibles rapports signal-sur-bruit dans le domaine électromagnétique, accompagné de la création du jeu de données EM-100k et de la benchmark EM-Bench pour surmonter les défis de données, d'évaluation et de modélisation.

Junyu Shen, Zhendong She, Chenghanyu Zhang, Yuchuang Sun, Luqing Luo, Dingwei Tan, Zonghao Guo, Bo Guo, Zehua Han, Wupeng Xie, Yaxin Mu, Peng Zhang, Peipei Li, Fengxiang Wang, Yangang Sun, Maosong Sun2026-03-10💻 cs

ALOOD: Exploiting Language Representations for LiDAR-based Out-of-Distribution Object Detection

Le papier présente ALOOD, une méthode innovante qui exploite les représentations linguistiques d'un modèle vision-langage pour transformer la détection d'objets hors distribution (OOD) en LiDAR en une tâche de classification zéro-shot, améliorant ainsi la sécurité des systèmes de conduite autonome.

Michael Kösel, Marcel Schreiber, Michael Ulrich, Claudius Gläser, Klaus Dietmayer2026-03-10🤖 cs.LG

Fusion-Poly: A Polyhedral Framework Based on Spatial-Temporal Fusion for 3D Multi-Object Tracking

Le papier présente Fusion-Poly, un cadre de fusion spatio-temporelle innovant pour le suivi 3D multi-objets qui exploite efficacement les données LiDAR et caméra asynchrones pour atteindre un état de l'art sur le jeu de données nuScenes.

Xian Wu, Yitao Wu, Xiaoyu Li, Zijia Li, Lijun Zhao, Lining Sun2026-03-10💻 cs

MM-TS: Multi-Modal Temperature and Margin Schedules for Contrastive Learning with Long-Tail Data

Ce papier propose MM-TS, une méthode de schedule dynamique de température et de marge pour l'apprentissage contrastif multimodal sur des données à longue traîne, qui améliore les performances en adaptant les forces d'attraction et de répulsion selon la densité locale des échantillons et en unifiant les approches InfoNCE et à marge maximale.

Siarhei Sheludzko, Dhimitrios Duka, Bernt Schiele, Hilde Kuehne, Anna Kukleva2026-03-10💻 cs

Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors

Cette étude propose deux stratégies de fusion multimodale, RGIF et RGMAF, qui intègrent l'alignement spatial et un mécanisme d'attention pondéré par la fiabilité pour améliorer significativement la détection d'UAV en combinant des données thermiques et visuelles hétérogènes.

Ishrat Jahan, Molla E Majid, M Murugappan, Muhammad E. H. Chowdhury, N. B. Prakash, Saad Bin Abul Kashem, Balamurugan Balusamy, Amith Khandakar2026-03-10💻 cs

Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA

Le papier présente Video2LoRA, un cadre unifié et économe en ressources qui utilise un hyper-réseau léger pour générer dynamiquement des poids LoRA personnalisés à partir d'une vidéo de référence, permettant ainsi une génération vidéo sémantiquement alignée et généralisable sans nécessiter d'entraînement par condition.

Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu2026-03-10💻 cs

SAVE: Speech-Aware Video Representation Learning for Video-Text Retrieval

Le papier propose SAVE, une nouvelle méthode d'apprentissage de représentations vidéo-sonores qui améliore les performances de la recherche vidéo-texte en intégrant un branchement dédié au traitement de la parole et une alignement précoce vision-son, surpassant ainsi les méthodes actuelles sur plusieurs benchmarks.

Ruixiang Zhao, Zhihao Xu, Bangxiang Lan, Zijie Xin, Jingyu Liu, Xirong Li2026-03-10💻 cs

← Précédent Suivant →