cs.CV articles | Gist.Science

Image Captioning via Compact Bidirectional Architecture

Cette présentation propose un modèle de Transformer bidirectionnel compact pour la légende d'images, qui intègre de manière parallèle des flux gauche-à-droite et droite-à-gauche pour exploiter le contexte bidirectionnel et atteindre des performances de pointe sur le benchmark MSCOCO.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

PnLCalib: Sports Field Registration via Points and Lines Optimization

Le papier présente PnLCalib, une méthode de calibration de caméra pour les vidéos sportives qui surpasse les techniques existantes en combinant un modèle 3D de terrain avec une optimisation non linéaire des points et des lignes pour gérer les angles multiples, les paramètres variables et les occlusions.

Marc Gutiérrez-Pérez, Antonio AgudoWed, 11 Ma🤖 cs.AI

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Le papier présente TIMotion, un cadre efficace et performant pour la génération de mouvements humains à deux, qui améliore la modélisation temporelle et interactive grâce à l'injection causale, l'analyse évolutive des rôles et l'amplification des motifs locaux.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong LiuWed, 11 Ma💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Ce papier propose un cadre unifié qui modélise la quantification et l'éparpillement comme du bruit additif et introduit une transformée de déquantification débruyante pour établir un chemin de gradient explicite, permettant ainsi l'entraînement robuste de réseaux de neurones à des précisions arbitraires et à des niveaux d'éparpillement extrêmes, y compris en dessous d'un bit.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

Le papier présente DRUPI, une méthode de condensation de dataset qui améliore l'efficacité de l'apprentissage en synthétisant, en plus des données réduites, des informations privilégiées (telles que des étiquettes de caractéristiques ou d'attention) servant de supervision auxiliaire.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Ce papier propose une méthode d'apprentissage de représentations non supervisé qui factorise les transformations des variables latentes en composantes sparses via un modèle de flot de probabilité, permettant d'obtenir des représentations décorrélées basées sur des primitives de transformation apprises et d'atteindre des performances de pointe en termes de vraisemblance des données et d'équivariance approximative.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Ce papier propose une technique de compression d'images basée sur la synthèse de nouvelles vues et l'optimisation par descente de gradient pour permettre un retour visuel en temps réel des véhicules téléopérés sous-marins, surpassant les méthodes existantes en termes de ratio de compression et de qualité d'image.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Active Prompt Learning with Vision-Language Model Priors

Cet article propose un cadre d'apprentissage de prompts actif et économe en budget qui améliore l'adaptation des modèles vision-langage aux nouvelles tâches en utilisant un regroupement guidé par les classes et une requête sélective basée sur des seuils adaptatifs, surpassant ainsi les méthodes existantes sur plusieurs jeux de données.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul OkWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

L'article présente ARSGaussian, une méthode innovante de synthèse de vues nouvelles pour la télédétection aérienne qui intègre des nuages de points LiDAR et des pertes de régularisation géométrique pour éliminer les artefacts visuels et améliorer la précision géométrique, accompagnée de la publication du nouveau jeu de données open-source AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Ce papier présente CuriousBot, un système de robotique mobile qui utilise un graphe d'objets relationnels 3D pour surmonter les limites des méthodes actuelles en permettant une exploration interactive et généralisable au-delà des scènes de table, surpassant ainsi les approches basées uniquement sur les modèles vision-langage.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Ce papier présente les iMarkers, des marqueurs de fiduciation invisibles pour l'œil humain mais détectables par les robots, conçus pour résoudre le problème esthétique des marqueurs traditionnels tout en offrant une grande flexibilité de production et une détection robuste dans divers scénarios robotiques.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Cette enquête propose une revue structurée de plus de 200 articles sur la généralisation du Wi-Fi sensing, en classant les techniques de robustesse, en résumant les jeux de données publics et en présentant la plateforme Sensing Dataset Platform (SDP) pour guider les recherches futures.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao HanWed, 11 Ma💻 cs

Recognition-Synergistic Scene Text Editing

Cet article présente RS-STE, une nouvelle approche unifiée pour l'édition de texte dans les images de scène qui exploite la synergie intrinsèque avec la reconnaissance de texte via un décodeur parallèle et un apprentissage auto-supervisé cyclique, atteignant ainsi des performances de pointe sans nécessiter de données appariées.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie PeiWed, 11 Ma💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Cet article présente une nouvelle approche semi-supervisée pour la segmentation d'images biomédicales, qui combine un cadre d'entraînement collaboratif enseignant-élève avec des modèles de diffusion pour générer des masques de segmentation informatifs et améliorer les performances dans des scénarios où les données annotées sont limitées.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio FalchiWed, 11 Ma💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Cet article présente BR-Gen, un nouveau jeu de données à grande échelle de 150 000 images forgées localement, et NFA-ViT, un modèle de vision par transformer guidé par le bruit qui amplifie les traces de falsification pour améliorer la détection des contrefaçons générées par l'IA dans des scènes complexes.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai SunWed, 11 Ma💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Ce papier présente M4-SAR, un ensemble de données et une référence normalisés à grande échelle pour la détection d'objets par fusion optique-SAR, accompagnés d'un nouveau cadre de détection E2E-OSDet qui démontrent des performances supérieures, notamment dans des environnements complexes.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei LuoWed, 11 Ma💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

Ce papier propose MARRS, un cadre novateur utilisant des représentations continues et un auto-encodeur variationnel pour générer des réactions humaines coordonnées et détaillées, en surmontant les limites des approches vectorielles quantisées grâce à une fusion conditionnée par l'action et une modulation adaptative des unités corporelles.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong LiuWed, 11 Ma💻 cs

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

Le papier présente EasyText, un cadre de rendu textuel multilingue basé sur un Transformateur de Diffusion (DiT) qui, grâce à des techniques de codage de position et à l'utilisation d'ensembles de données synthétiques massifs, permet une génération précise et contrôlée de texte dans n'importe quelle langue.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren SongWed, 11 Ma💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Cet article présente SpikeSMOKE, une architecture de réseaux de neurones à impulsions (SNN) intégrant un mécanisme de codage à porte croisée multi-échelle (CSGC) et des blocs résiduels légers pour réaliser une détection d'objets 3D monoculaire à faible consommation énergétique avec des performances améliorées sur les jeux de données KITTI, NuScenes-mini et CIFAR.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen HuangWed, 11 Ma💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Ce papier présente FieldLVLM, un cadre novateur qui améliore la compréhension des modèles vision-langage de grande taille face aux données de champs physiques en combinant une stratégie de génération linguistique axée sur les caractéristiques physiques et un ajustement de modèle multimodal compressé, surpassant ainsi les méthodes existantes sur des benchmarks scientifiques.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang ZhangWed, 11 Ma💻 cs