cs.CV articoli | Gist.Science

Image Captioning via Compact Bidirectional Architecture

Questo paper introduce un modello Transformer bidirezionale compatto per la descrizione di immagini che, integrando flussi di generazione da sinistra a destra e viceversa in un'unica architettura eseguita in parallelo e sfruttando tecniche di ensemble, supera i limiti dei modelli unidirezionali e raggiunge risultati all'avanguardia senza pre-addestramento visione-linguaggio.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

PnLCalib: Sports Field Registration via Points and Lines Optimization

Il paper propone PnLCalib, un metodo di calibrazione della camera basato sull'ottimizzazione di punti e linee che supera le limitazioni dei metodi tradizionali per la registrazione dei campi sportivi in video broadcast, dimostrando maggiore robustezza e precisione su dataset reali come SoccerNet-Calibration e WorldCup 2014.

Marc Gutiérrez-Pérez, Antonio AgudoWed, 11 Ma🤖 cs.AI

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Il paper introduce TIMotion, un framework efficiente per la generazione di motion umane interattive che combina modellazione temporale e mixing interattivo tramite tecniche come l'iniezione causale interattiva, la scansione evolutiva dei ruoli e l'amplificazione di pattern localizzati, ottenendo prestazioni superiori rispetto ai metodi esistenti.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong LiuWed, 11 Ma💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Questo paper introduce un quadro unificato che modella la quantizzazione e la sparsificazione come rumore additivo, proponendo una trasformata di dequantizzazione basata sulla regressione ridge per fornire un percorso di gradiente ben definito che permette l'addestramento stabile di reti neurali ad alta efficienza con precisione arbitraria e livelli di sparsità estremi, superando i limiti degli approcci esistenti come lo Straight-Through Estimator.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

Il paper introduce DRUPI, un metodo di condensazione del dataset che migliora le prestazioni dei modelli sintetizzando informazioni privilegiate (come etichette di feature o attenzione) insieme ai dati ridotti, ottenendo significativi guadagni su diversi benchmark.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Questo articolo propone un metodo di apprendimento rappresentativo non supervisionato che, analizzando le trasformazioni sparse dei dati sequenziali tramite un modello di flusso probabilistico decomposto in campi vettoriali rotazionali e potenziali, genera rappresentazioni disaccoppiate basate su primitive di trasformazione indipendenti, ottenendo risultati all'avanguardia nella verosimiglianza dei dati e nell'approssimazione dell'equivarianza.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Questo lavoro propone una tecnica di compressione delle immagini basata sulla sintesi di nuove viste per abilitare il feedback visivo in tempo reale nel controllo remoto di veicoli sottomarini, superando i limiti di larghezza di banda delle comunicazioni acustiche grazie all'uso di modelli di apprendimento automatico e ottimizzazione tramite discesa del gradiente.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Active Prompt Learning with Vision-Language Model Priors

Il paper propone un framework di apprendimento attivo per i modelli visione-linguaggio che, combinando un clustering guidato dalle classi e una selezione adattiva basata su soglie specifiche per categoria, ottimizza l'efficienza del budget di annotazione superando le prestazioni delle metodologie esistenti su diversi dataset.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul OkWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Il paper presenta ARSGaussian, un metodo innovativo per la sintesi di nuove viste in ambito di telerilevamento aereo che integra nuvole di punti LiDAR e modelli di distorsione geometrica nel 3D Gaussian Splatting per risolvere problemi di fluttuazione e sovracrescita, migliorando la precisione geometrica e rilasciando il nuovo dataset AIR-LONGYAN.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Il paper introduce CuriousBot, un sistema robotico mobile che supera i limiti delle attuali metodologie basate sulla sola percezione attiva, utilizzando un grafo relazionale di oggetti 3D per abilitare un'esplorazione interattiva efficace e generalizzabile in ambienti complessi.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Il paper presenta gli iMarkers, nuovi marcatori fiduciali invisibili agli umani ma rilevabili da robot e dispositivi AR, che risolvono il problema estetico dei marcatori tradizionali offrendo flessibilità di produzione, algoritmi di rilevamento open-source e robustezza in scenari robotici diversificati.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Questo lavoro di ricerca offre una panoramica completa e strutturata delle tecniche, dei dataset e delle prospettive future per migliorare la generalizzabilità del rilevamento tramite Wi-Fi, affrontando le sfide legate ai cambiamenti di dominio attraverso un'analisi di oltre 200 pubblicazioni e l'introduzione di una nuova piattaforma per la condivisione dei dati.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao HanWed, 11 Ma💻 cs

Recognition-Synergistic Scene Text Editing

Il paper presenta RS-STE, un nuovo approccio che integra in modo sinergico il riconoscimento e l'editing del testo in scene reali all'interno di un unico framework basato su transformer, ottenendo prestazioni all'avanguardia su dati sintetici e reali grazie a una strategia di addestramento auto-supervisionato ciclico.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie PeiWed, 11 Ma💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Questo articolo presenta un nuovo framework semi-supervisionato per la segmentazione di immagini biomediche che combina modelli di diffusione e co-training teacher-student per generare e raffinare pseudo-etichette, superando le tecniche attuali in scenari con dati annotati limitati.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio FalchiWed, 11 Ma💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Il paper introduce BR-Gen, un nuovo dataset su larga scala di immagini manipolate localmente, e NFA-ViT, un modello Transformer che amplifica le tracce di falsificazione per migliorare la rilevazione di alterazioni AI in contesti complessi.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai SunWed, 11 Ma💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Il paper introduce M4-SAR, un nuovo dataset su larga scala e un benchmark standardizzato per la rilevazione di oggetti tramite fusione ottica-SAR, accompagnati dal framework E2E-OSDet che dimostra come l'integrazione di queste due modalità migliori significativamente l'accuratezza della rilevazione rispetto all'uso di singoli sensori.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei LuoWed, 11 Ma💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

Il paper presenta MARRS, un nuovo framework che utilizza rappresentazioni continue e un'architettura basata su VAE, fusione condizionata e modulazione adattiva per generare sintesi di reazioni umane coordinate e dettagliate, superando i limiti dei metodi autoregressivi con quantizzazione vettoriale.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong LiuWed, 11 Ma💻 cs

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

Il paper introduce EasyText, un framework basato su Diffusion Transformer che, grazie a nuove tecniche di codifica posizionale e a un vasto dataset multilingue, permette la generazione controllata e precisa di testo in diverse lingue.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren SongWed, 11 Ma💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Il paper presenta SpikeSMOKE, un'architettura di reti neurali spiking per il rilevamento 3D di oggetti da singola immagine che, grazie a un innovativo meccanismo di codifica a gate multi-scala (CSGC) e a blocchi residui leggeri, migliora significativamente le prestazioni rispetto ai modelli esistenti riducendo al contempo il consumo energetico e la complessità computazionale.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen HuangWed, 11 Ma💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Il paper introduce FieldLVLM, un nuovo framework che migliora la comprensione dei dati di campo scientifici da parte dei Large Vision-Language Models attraverso una strategia di generazione linguistica consapevole del campo e un adattamento multimodale con compressione dei dati, ottenendo risultati superiori su benchmark specifici.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang ZhangWed, 11 Ma💻 cs