cs.CV articoli | Gist.Science

Collaborative Multi-Modal Coding for High-Quality 3D Generation

Il paper presenta TriMM, il primo modello generativo feed-forward nativo 3D che sfrutta la codifica collaborativa multi-modale (RGB, RGBD e nuvole di punti) e la supervisione ausiliaria per generare asset 3D di alta qualità con dettagli geometrici e testurali superiori, dimostrando prestazioni competitive anche con dati di addestramento limitati.

Ziang Cao, Zhaoxi Chen, Liang Pan + 1 more2026-02-24💻 cs

FLUID: A Fine-Grained Lightweight Urban Signalized-Intersection Dataset of Dense Conflict Trajectories

Il paper introduce FLUID, un dataset fine-grained e un framework leggero per l'elaborazione di traiettorie da droni, che cattura conflitti densi e comportamenti interattivi in tipici incroci urbani semaforizzati per supportare la ricerca sulla guida autonoma e la modellazione del traffico.

Yiyang Chen, Zhigang Wu, Guohong Zheng + 5 more2026-02-24💻 cs

Decoding Tourist Perception in Historic Urban Quarters with Multimodal Social Media Data: An AI-Based Framework and Evidence from Shanghai

Questo studio propone un framework basato sull'intelligenza artificiale che utilizza dati multimodali dai social media per analizzare e decodificare la percezione dei turisti nei quartieri storici di Shanghai, rivelando discrepanze tra l'immagine condivisa online e la realtà fisica del luogo per supportare una migliore gestione del patrimonio e la progettazione urbana.

Kaizhen Tan, Yufan Wu, Yuxuan Liu + 1 more2026-02-24🤖 cs.AI

MOGS: Monocular Object-guided Gaussian Splatting in Large Scenes

Il paper presenta MOGS, un framework monocular 3DGS che sostituisce i costosi sensori LiDAR con profondità metriche dense derivate da cues visivo-inerziali e priors di forma basati sulla semantica, riducendo significativamente tempi di addestramento e consumo di memoria pur mantenendo una qualità di rendering competitiva nelle scene su larga scala.

Shengkai Zhang, Yuhe Liu, Jianhua He + 3 more2026-02-24💻 cs

Modelling and analysis of the 8 filters from the "master key filters hypothesis" for depthwise-separable deep networks in relation to idealized receptive fields based on scale-space theory

Questo studio dimostra che i filtri appresi nelle reti neurali depthwise-separable basate su ConvNeXt possono essere efficacemente modellati e sostituiti da filtri ideali derivati dalla teoria dello spazio-scala, confermando che i "filtri chiave maestra" estratti corrispondono a operatori di differenza applicati a kernel gaussiani discreti.

Tony Lindeberg, Zahra Babaiee, Peyman M. Kiasari2026-02-24💻 cs

Unleashing the Power of Discrete-Time State Representation: Ultrafast Target-based IMU-Camera Spatial-Temporal Calibration

Questo articolo presenta un metodo di calibrazione spaziotemporale ultra-veloce e a codice aperto per sistemi IMU-camera che, superando i limiti computazionali delle rappresentazioni a tempo continuo, sfrutta un'innovativa rappresentazione a tempo discreto per ottimizzare l'efficienza senza compromettere la precisione.

Junlin Song, Antoine Richard, Miguel Olivares-Mendez2026-02-24💻 cs

RangeSAM: On the Potential of Visual Foundation Models for Range-View represented LiDAR segmentation

Il paper introduce RangeSAM, il primo framework che adatta il modello visivo fondazionale SAM2 alla segmentazione di nuvole di punti LiDAR in vista di portata, ottenendo prestazioni competitive su SemanticKITTI grazie a modifiche architetturali specifiche che sfruttano l'efficienza delle pipeline 2D.

Paul Julius Kühn, Duc Anh Nguyen, Arjan Kuijper + 1 more2026-02-24💻 cs

Comparing and Integrating Different Notions of Representational Correspondence in Neural Systems

Questo studio valuta e integra diverse metriche di similarità rappresentazionale, dimostrando che l'uso combinato di queste misure, tramite la fusione di reti di similarità, permette di ottenere una classificazione più precisa dei modelli neurali e una mappatura gerarchica più chiara del flusso visivo ventrale rispetto all'impiego di singole metriche.

Jialin Wu, Shreya Saha, Yiqing Bo + 1 more2026-02-24🤖 cs.AI

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

Il paper introduce WAVE, il primo modello di embedding basato su LLM che crea uno spazio rappresentativo unificato per testo, audio e video, ottenendo prestazioni all'avanguardia nel recupero incrociato tra modalità e nella generazione di embedding consapevoli delle istruzioni utente.

Changli Tang, Qinfan Xiao, Ke Mei + 3 more2026-02-24💻 cs

CMT: Mid-Training for Efficient Learning of Consistency, Mean Flow, and Flow Map Models

Il paper introduce CMT (Consistency Mid-Training), un nuovo metodo di addestramento intermedio che stabilizza e accelera l'apprendimento dei modelli di mappa di flusso per la generazione visiva, ottenendo risultati all'avanguardia con una riduzione drastica dei dati e del tempo di calcolo necessari.

Zheyuan Hu, Chieh-Hsin Lai, Yuki Mitsufuji + 1 more2026-02-24🤖 cs.AI

AlignTok: Aligning Visual Foundation Encoders to Tokenizers for Diffusion Models

Il paper propone AlignTok, un metodo a tre fasi che allinea encoder visivi preaddestrati a tokenizer per modelli di diffusione, sfruttando la loro ricca struttura semantica per accelerare l'addestramento e migliorare la qualità della generazione delle immagini rispetto ai VAE tradizionali.

Bowei Chen, Sai Bi, Hao Tan + 6 more2026-02-24💻 cs

SAGE: Spatial-visual Adaptive Graph Exploration for Efficient Visual Place Recognition

Il paper presenta SAGE, un pipeline di addestramento unificato che migliora il riconoscimento visivo dei luoghi attraverso un'esplorazione adattiva di grafi spaziali e visivi, combinando un modulo di sonda soft, la ricostruzione di grafi geo-visivi online e un campionamento greedy per raggiungere prestazioni all'avanguardia su otto benchmark.

Shunpeng Chen, Changwei Wang, Rongtao Xu + 7 more2026-02-24💻 cs

Flower: A Flow-Matching Solver for Inverse Problems

Il paper introduce Flower, un risolutore per problemi inversi lineari che utilizza un modello di flusso pre-addestrato in un processo iterativo di tre fasi per ottenere ricostruzioni coerenti con le misurazioni, unificando approcci teorici e raggiungendo prestazioni all'avanguardia con iperparametri universali.

Mehrsa Pourya, Bassam El Rawas, Michael Unser2026-02-24🤖 cs.LG

VIRTUE: Visual-Interactive Text-Image Universal Embedder

Il paper presenta VIRTUE, un nuovo modello di embedding universale testo-immagine che integra capacità di interazione visiva per localizzare regioni specifiche tramite prompt, superando le prestazioni attuali su 36 task universali e su un nuovo benchmark di 1 milione di campioni dedicato al recupero di didascalie contestualizzate.

Wei-Yao Wang, Kazuya Tateishi, Qiyu Wu + 2 more2026-02-24🤖 cs.AI

RewardMap: Tackling Sparse Rewards in Fine-grained Visual Reasoning via Multi-Stage Reinforcement Learning

Il paper presenta RewardMap, un framework di apprendimento per rinforzo multi-fase che risolve il problema delle ricompense sparse nel ragionamento visivo fine-granularità introducendo il dataset ReasonMap-Plus e un meccanismo di ricompensa adattivo alla difficoltà, ottenendo significativi miglioramenti nelle capacità di ragionamento spaziale e visivo dei modelli linguistici multimodali.

Sicheng Feng, Kaiwen Tuo, Song Wang + 3 more2026-02-24🤖 cs.AI

OBS-Diff: Accurate Pruning For Diffusion Models in One-Shot

Il paper presenta OBS-Diff, un innovativo framework di pruning one-shot e senza addestramento che adatta l'Optimal Brain Surgeon ai modelli di diffusione testo-immagine, introducendo una costruzione dell'Hessiana sensibile ai timestep e una strategia di pruning sequenziale per ottenere un'accelerazione dell'inferenza con minima perdita di qualità visiva.

Junhan Zhu, Hesong Wang, Mingluo Su + 2 more2026-02-24💻 cs

Efficient Discriminative Joint Encoders for Large Scale Vision-Language Reranking

Il paper presenta EDJE, un efficiente encoder congiunto discriminativo che precalcola e comprime i token visivi per abilitare un reranking su larga scala di coppie immagine-testo ad alta velocità e basso costo di archiviazione, mantenendo prestazioni competitive rispetto agli approcci esistenti.

Mitchell Keren Taraday, Shahaf Wagner, Chaim Baskin2026-02-24🤖 cs.LG

LinVideo: A Post-Training Framework towards O(n) Attention in Efficient Video Generation

Il paper presenta LinVideo, un framework di post-addestramento senza dati che sostituisce selettivamente i moduli di attenzione quadratica con attenzione lineare, ottenendo un'accelerazione da 1,25x a 2,00x e riducendo la latenza fino a 15,92x nei modelli distillati, mantenendo al contempo la qualità della generazione video.

Yushi Huang, Xingtong Ge, Ruihao Gong + 2 more2026-02-24💻 cs

Action-Dynamics Modeling and Cross-Temporal Interaction for Online Action Understanding

Il documento presenta il modello SSM (State-Specific Model), un nuovo framework che unifica rilevamento e anticipazione delle azioni tramite compressione della memoria basata su stati critici, apprendimento di pattern di azione e interazione cross-temporale, dimostrando prestazioni superiori su diversi dataset di riferimento.

Xinyu Yang, Zheheng Jiang, Feixiang Zhou + 5 more2026-02-24💻 cs

From Pixels to Words -- Towards Native Vision-Language Primitives at Scale

Il paper presenta NEO, una nuova famiglia di modelli visione-linguaggio nativi costruiti da principi fondamentali che, grazie a primitive unificate e un addestramento su larga scala, colmano il divario con i modelli modulari tradizionali rendendo la ricerca in questo campo più accessibile ed efficiente.

Haiwen Diao, Mingxuan Li, Silei Wu + 6 more2026-02-24🤖 cs.AI

← Precedente Successivo →