cs.CV articles | Gist.Science

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

Le papier présente TIDE, une méthode d'extrapolation sans entraînement pour les Transformers de diffusion qui permet de générer des images à des résolutions et des ratios d'aspect arbitraires en corrigeant le déséquilibre entre les jetons de texte et d'image via un mécanisme d'ancrage textuel et en éliminant les artefacts grâce à un contrôle dynamique de la température.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Cette étude présente un nouveau cadre utilisant des modèles de vision-langage fondationnels pour générer automatiquement des configurations de simulation de plantes à partir d'images de drones, offrant ainsi une solution évolutive pour la création de jumeaux numériques agricoles.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Le papier présente PathoScribe, un cadre unifié piloté par un grand modèle de langage (LLM) qui transforme les archives de pathologie statiques en une bibliothèque vivante et intelligente, permettant la recherche sémantique, la construction automatisée de cohortes et l'aide au diagnostic clinique avec une précision et une efficacité supérieures aux méthodes traditionnelles.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Le papier présente BiCLIP, un cadre simple et efficace qui améliore l'adaptation de domaine des modèles vision-langage en appliquant une transformation géométrique structurée aux caractéristiques multimodales, permettant d'atteindre des performances de pointe sur plusieurs benchmarks avec un nombre minimal de paramètres.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Cet article présente le premier benchmark d'apprentissage continu sans exemples pour la segmentation audio-visuelle, accompagné de la méthode ATLAS qui intègre un conditionnement pré-fusion guidé par l'audio et une ancrage de faible rang pour atténuer l'oubli catastrophique dans des environnements dynamiques.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Le papier présente SVG-EAR, une méthode sans paramètres qui améliore l'efficacité de la génération vidéo par diffusion via un routage conscient de l'erreur et une compensation linéaire basée sur des centroïdes, permettant d'accélérer considérablement l'inférence tout en préservant la qualité visuelle.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

Le papier présente SurgCalib, un cadre de calibration main-œil sans marqueur basé sur le Gaussian Splatting pour les robots chirurgicaux da Vinci, qui surmonte les imprécisions des encodeurs et les contraintes de stérilité en affinant la pose de l'instrument via une optimisation différentiable sous contrainte RCM.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. SalcudeanWed, 11 Ma💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

Le papier présente SkipGS, une méthode plug-and-play qui accélère l'entraînement de la 3DGS en sautant sélectivement les passes de rétropropagation lors de la phase de raffinement post-densification lorsque les pertes par vue sont stables, réduisant ainsi le temps d'entraînement global de 23,1 % sans compromettre la qualité de reconstruction.

Jingxing Li, Yongjae Leeand, Deliang FanWed, 11 Ma💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Cet article propose un cadre d'authentification multimodal basé sur la diffusion et conditionné par l'identité de l'imprimante, qui surpasse les méthodes traditionnelles pour détecter les contrefaçons de motifs de détection de copie en exploitant les signatures spécifiques des appareils.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-JuniorWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Ce papier propose la Normalized Flow Matching (NFM), une nouvelle méthode qui améliore l'entraînement des modèles de flux en distillant des couplages adaptatifs à partir de modèles de flux normalisés pré-entraînés, surpassant ainsi les approches traditionnelles à couplage indépendant ou optimal.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Cet article propose une mesure de platitude exacte et architecturalement fidèle pour les réseaux de neurones convolutifs, dérivée d'une expression fermée de la trace de l'Hessienne, qui s'avère être un outil robuste pour estimer et comparer les performances de généralisation de ces modèles.

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Ce papier présente WS-Net, un cadre d'analyse de démixage hyperspectral innovant qui combine la modélisation par espace d'états et une attention dédiée aux signaux faibles pour surmonter l'effacement des réponses spectrales subtiles et améliorer significativement la précision de l'estimation des abondances, même dans des conditions de faible rapport signal sur bruit.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

Le papier présente SpectralDiff, un cadre de diffusion structuré dans le domaine spectral qui intègre des perturbations spectrales et une architecture U-Net à produit complet pour supprimer efficacement les traces de pluie sur une image unique tout en améliorant l'efficacité computationnelle.

Yucheng Xing, Xin WangWed, 11 Ma💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Cette étude propose un cadre d'analyse de proximité amélioré basé sur YOLOv8 pour la détection intelligente des incendies et l'évaluation des risques sur les chantiers, combinant la segmentation du feu et de la fumée avec la détection d'objets environnants afin de calculer des distances réelles et d'attribuer des scores de risque quantitatifs avec une précision supérieure à 90 %.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan UbaidWed, 11 Ma💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Le papier présente GST-VLA, un modèle d'action vision-langage qui améliore la précision des tâches robotiques en intégrant des tokens spatiaux gaussiens 3D structurés pour une géométrie métrique et un raisonnement en chaîne de pensée conscient de la profondeur, atteignant ainsi des performances record sur les benchmarks LIBERO et SimplerEnv.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

OmniEdit est un cadre d'édition audio-visuelle et de synchronisation labiale sans entraînement qui élimine le besoin de micro-ajustement supervisé en reformulant le processus d'édition pour garantir des résultats stables et précis.

Lixiang Lin, Siyuan Jin, Jinshan ZhangWed, 11 Ma💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Cet article propose un cadre innovant pour la génération de vidéos physiquement plausibles qui décompose les phénomènes en chaînes d'événements causaux grâce à un raisonnement guidé par la physique et une nouvelle méthode de promptage intermodal, garantissant ainsi une progression temporelle cohérente et réaliste.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie LeiWed, 11 Ma💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Cette étude diagnostique le « fossé de modalité » qui réduit les performances des modèles multimodaux lors du traitement de texte en images, identifie les causes de cette dégradation comme des erreurs de lecture amplifiées par le rendu visuel, et propose une méthode d'auto-distillation efficace pour combler cet écart sans oublier les connaissances antérieures.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Le papier propose MedKCO, une méthode de pré-entraînement vision-langage médical qui améliore les représentations de caractéristiques en orchestrant l'apprentissage via un curriculum à deux niveaux basé sur la sensibilité diagnostique et la représentativité des échantillons, ainsi qu'une perte contrastive asymétrique auto-pace pour gérer les similarités inter-classes.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi ZhouWed, 11 Ma💻 cs

Training-free Motion Factorization for Compositional Video Generation

Cet article propose un cadre de génération vidéo sans entraînement qui factorise le mouvement en trois catégories (immobilité, mouvement rigide et non rigide) via une approche de planification préalable, permettant une synthèse compositionnelle précise et adaptable à diverses architectures de modèles de diffusion.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie LeiWed, 11 Ma💻 cs

← Précédent Suivant →