Image Captioning via Compact Bidirectional Architecture

Questo paper introduce un modello Transformer bidirezionale compatto per la descrizione di immagini che, integrando flussi di generazione da sinistra a destra e viceversa in un'unica architettura eseguita in parallelo e sfruttando tecniche di ensemble, supera i limiti dei modelli unidirezionali e raggiunge risultati all'avanguardia senza pre-addestramento visione-linguaggio.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Il paper introduce TIMotion, un framework efficiente per la generazione di motion umane interattive che combina modellazione temporale e mixing interattivo tramite tecniche come l'iniezione causale interattiva, la scansione evolutiva dei ruoli e l'amplificazione di pattern localizzati, ottenendo prestazioni superiori rispetto ai metodi esistenti.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong LiuWed, 11 Ma💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Questo paper introduce un quadro unificato che modella la quantizzazione e la sparsificazione come rumore additivo, proponendo una trasformata di dequantizzazione basata sulla regressione ridge per fornire un percorso di gradiente ben definito che permette l'addestramento stabile di reti neurali ad alta efficienza con precisione arbitraria e livelli di sparsità estremi, superando i limiti degli approcci esistenti come lo Straight-Through Estimator.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Questo articolo propone un metodo di apprendimento rappresentativo non supervisionato che, analizzando le trasformazioni sparse dei dati sequenziali tramite un modello di flusso probabilistico decomposto in campi vettoriali rotazionali e potenziali, genera rappresentazioni disaccoppiate basate su primitive di trasformazione indipendenti, ottenendo risultati all'avanguardia nella verosimiglianza dei dati e nell'approssimazione dell'equivarianza.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Questo lavoro propone una tecnica di compressione delle immagini basata sulla sintesi di nuove viste per abilitare il feedback visivo in tempo reale nel controllo remoto di veicoli sottomarini, superando i limiti di larghezza di banda delle comunicazioni acustiche grazie all'uso di modelli di apprendimento automatico e ottimizzazione tramite discesa del gradiente.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Il paper presenta ARSGaussian, un metodo innovativo per la sintesi di nuove viste in ambito di telerilevamento aereo che integra nuvole di punti LiDAR e modelli di distorsione geometrica nel 3D Gaussian Splatting per risolvere problemi di fluttuazione e sovracrescita, migliorando la precisione geometrica e rilasciando il nuovo dataset AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Il paper presenta gli iMarkers, nuovi marcatori fiduciali invisibili agli umani ma rilevabili da robot e dispositivi AR, che risolvono il problema estetico dei marcatori tradizionali offrendo flessibilità di produzione, algoritmi di rilevamento open-source e robustezza in scenari robotici diversificati.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Questo lavoro di ricerca offre una panoramica completa e strutturata delle tecniche, dei dataset e delle prospettive future per migliorare la generalizzabilità del rilevamento tramite Wi-Fi, affrontando le sfide legate ai cambiamenti di dominio attraverso un'analisi di oltre 200 pubblicazioni e l'introduzione di una nuova piattaforma per la condivisione dei dati.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao HanWed, 11 Ma💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Il paper introduce M4-SAR, un nuovo dataset su larga scala e un benchmark standardizzato per la rilevazione di oggetti tramite fusione ottica-SAR, accompagnati dal framework E2E-OSDet che dimostra come l'integrazione di queste due modalità migliori significativamente l'accuratezza della rilevazione rispetto all'uso di singoli sensori.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei LuoWed, 11 Ma💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Il paper presenta SpikeSMOKE, un'architettura di reti neurali spiking per il rilevamento 3D di oggetti da singola immagine che, grazie a un innovativo meccanismo di codifica a gate multi-scala (CSGC) e a blocchi residui leggeri, migliora significativamente le prestazioni rispetto ai modelli esistenti riducendo al contempo il consumo energetico e la complessità computazionale.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen HuangWed, 11 Ma💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Il paper introduce FieldLVLM, un nuovo framework che migliora la comprensione dei dati di campo scientifici da parte dei Large Vision-Language Models attraverso una strategia di generazione linguistica consapevole del campo e un adattamento multimodale con compressione dei dati, ottenendo risultati superiori su benchmark specifici.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang ZhangWed, 11 Ma💻 cs