Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Ce papier propose un cadre unifié qui modélise la quantification et l'éparpillement comme du bruit additif et introduit une transformée de déquantification débruyante pour établir un chemin de gradient explicite, permettant ainsi l'entraînement robuste de réseaux de neurones à des précisions arbitraires et à des niveaux d'éparpillement extrêmes, y compris en dessous d'un bit.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

Le papier présente DRUPI, une méthode de condensation de dataset qui améliore l'efficacité de l'apprentissage en synthétisant, en plus des données réduites, des informations privilégiées (telles que des étiquettes de caractéristiques ou d'attention) servant de supervision auxiliaire.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Ce papier propose une méthode d'apprentissage de représentations non supervisé qui factorise les transformations des variables latentes en composantes sparses via un modèle de flot de probabilité, permettant d'obtenir des représentations décorrélées basées sur des primitives de transformation apprises et d'atteindre des performances de pointe en termes de vraisemblance des données et d'équivariance approximative.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

L'article présente ARSGaussian, une méthode innovante de synthèse de vues nouvelles pour la télédétection aérienne qui intègre des nuages de points LiDAR et des pertes de régularisation géométrique pour éliminer les artefacts visuels et améliorer la précision géométrique, accompagnée de la publication du nouveau jeu de données open-source AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Ce papier présente CuriousBot, un système de robotique mobile qui utilise un graphe d'objets relationnels 3D pour surmonter les limites des méthodes actuelles en permettant une exploration interactive et généralisable au-delà des scènes de table, surpassant ainsi les approches basées uniquement sur les modèles vision-langage.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Ce papier présente les iMarkers, des marqueurs de fiduciation invisibles pour l'œil humain mais détectables par les robots, conçus pour résoudre le problème esthétique des marqueurs traditionnels tout en offrant une grande flexibilité de production et une détection robuste dans divers scénarios robotiques.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Cette enquête propose une revue structurée de plus de 200 articles sur la généralisation du Wi-Fi sensing, en classant les techniques de robustesse, en résumant les jeux de données publics et en présentant la plateforme Sensing Dataset Platform (SDP) pour guider les recherches futures.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao HanWed, 11 Ma💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Cet article présente une nouvelle approche semi-supervisée pour la segmentation d'images biomédicales, qui combine un cadre d'entraînement collaboratif enseignant-élève avec des modèles de diffusion pour générer des masques de segmentation informatifs et améliorer les performances dans des scénarios où les données annotées sont limitées.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio FalchiWed, 11 Ma💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Cet article présente BR-Gen, un nouveau jeu de données à grande échelle de 150 000 images forgées localement, et NFA-ViT, un modèle de vision par transformer guidé par le bruit qui amplifie les traces de falsification pour améliorer la détection des contrefaçons générées par l'IA dans des scènes complexes.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai SunWed, 11 Ma💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Cet article présente SpikeSMOKE, une architecture de réseaux de neurones à impulsions (SNN) intégrant un mécanisme de codage à porte croisée multi-échelle (CSGC) et des blocs résiduels légers pour réaliser une détection d'objets 3D monoculaire à faible consommation énergétique avec des performances améliorées sur les jeux de données KITTI, NuScenes-mini et CIFAR.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen HuangWed, 11 Ma💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Ce papier présente FieldLVLM, un cadre novateur qui améliore la compréhension des modèles vision-langage de grande taille face aux données de champs physiques en combinant une stratégie de génération linguistique axée sur les caractéristiques physiques et un ajustement de modèle multimodal compressé, surpassant ainsi les méthodes existantes sur des benchmarks scientifiques.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang ZhangWed, 11 Ma💻 cs