cs.CV articoli | Gist.Science

Efficient Diffusion-Based 3D Human Pose Estimation with Hierarchical Temporal Pruning

Questo articolo presenta un framework per la stima della posa umana 3D basato su modelli di diffusione che, grazie a una strategia di potatura temporale gerarchica (HTP), riduce drasticamente i costi computazionali e accelera l'inferenza mantenendo prestazioni all'avanguardia.

Yuquan Bi, Hongsong Wang, Xinli Shi, Zhipeng Gui, Jie Gui, Yuan Yan Tang2026-03-10💻 cs

PointSlice: Accurate and Efficient Slice-Based Representation for 3D Object Detection from Point Clouds

Il paper presenta PointSlice, un nuovo metodo di rappresentazione basato su fette per la rilevazione di oggetti 3D da nuvole di punti che, bilanciando precisione ed efficienza attraverso una conversione in dati 2D e una rete di interazione tra fette, supera i compromessi tradizionali tra metodi basati su voxel e pilastri.

Liu Qifeng, Zhao Dawei, Dong Yabo, Xiao Liang, Wang Juan, Min Chen, Li Fuyang, Jiang Weizhong, Lu Dongming, Nie Yiming2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

Il paper propone MDM-MixMFL, un nuovo framework di apprendimento federato che utilizza strategie di decoupling e memorizzazione delle modalità per affrontare l'eterogeneità dei dati e delle modalità nell'segmentazione di immagini MRI in scenari medici distribuiti non centralizzati.

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

Classification of Driver Behaviour Using External Observation Techniques for Autonomous Vehicles

Questo studio presenta un sistema innovativo basato sulla visione artificiale e sull'analisi della posizione laterale per classificare in tempo reale comportamenti di guida pericolosi, come distrazione e alterazione, osservando i veicoli dall'esterno senza necessità di comunicazioni inter-veicolari.

Ian Nell, Shane Gilroy2026-03-10⚡ eess

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

Il paper presenta UltraUPConvNet, un framework universale ed efficiente basato su UPerNet e ConvNeXt che, addestrato su un ampio dataset di oltre 9.700 annotazioni, unifica con prestazioni all'avanguardia la segmentazione dei tessuti e la previsione delle malattie nelle immagini ecografiche riducendo al contempo il carico computazionale.

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

Il paper presenta Traffic-MLLM, un framework di apprendimento supervisionato regolarizzato dalla curiosità che, integrando dati video dinamici e domande-visive su larga scala, apprende uno spazio di casi strutturato per migliorare il ragionamento multimodale e la robustezza nei scenari di guida autonomi senza ricorrere al recupero esplicito dei casi.

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

Il paper propone SAGA, un meccanismo di attenzione lineare che utilizza cancelli adattivi selettivi per mitigare la ridondanza delle informazioni e migliorare l'espressività, ottenendo così significativi guadagni sia in termini di efficienza computazionale che di accuratezza rispetto alle architetture Transformer tradizionali.

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

Il paper introduce il Cumulative Consensus Score (CCS), un metodo agnostico e privo di etichette che valuta l'affidabilità dei modelli di rilevamento oggetti in fase di deployment misurando la coerenza spaziale delle previsioni su immagini con aumentazioni di dati, offrendo così una robusta metrica di monitoraggio per scenari reali privi di annotazioni.

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

Il paper introduce WHU-STree, un nuovo dataset multi-modale e ricco di annotazioni raccolto in due città diverse che integra nuvole di punti e immagini ad alta risoluzione per supportare oltre 10 compiti di inventario degli alberi stradali, superando i limiti dei dataset esistenti e fornendo un benchmark per la classificazione delle specie e la segmentazione degli alberi individuali.

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

MICA: Multi-Agent Industrial Coordination Assistant

Il paper presenta MICA, un assistente di coordinamento industriale multi-agente basato su percezione e interazione vocale che, grazie a un meccanismo di fusione adattiva dei passaggi e a un controllo di sicurezza, garantisce assistenza affidabile, privata e funzionante offline per ambienti di fabbrica dinamici.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Il paper introduce ORIC, un framework e un benchmark per valutare come l'incongruenza contestuale comprometta il riconoscimento degli oggetti nei Large Vision-Language Models, dimostrando che l'addestramento su dati generati da questo metodo migliora significativamente l'affidabilità e riduce le allucinazioni dei modelli.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

Questo articolo presenta un innovativo sistema di navigazione "Visual Teach-and-Repeat" basato su una camera a eventi che, sfruttando la correlazione incrociata nel dominio di Fourier e la compressione delle immagini, raggiunge una latenza di elaborazione estremamente bassa (2,88 ms) e permette una navigazione autonoma precisa e robusta in diverse condizioni di illuminazione su percorsi di oltre 3000 metri.

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

Questo studio dimostra che i moderni modelli video-LLM traggono significativi benefici dall'integrazione di encoder audio per compiti che richiedono comprensione del parlato, rivelando al contempo come le attuali benchmark visive sottostimino l'importanza dell'audio a causa della loro dipendenza da indizi puramente visivi.

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Il paper propone FINS, un framework leggero che ricostruisce efficientemente in pochi secondi superfici implicite e campi SDF ad alta fedeltà partendo da una singola immagine, superando i metodi esistenti in velocità e precisione e dimostrando la propria efficacia in compiti di robotica come il seguire superfici.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

Il paper propone QuantVGGT, il primo framework di quantizzazione post-allenamento per i transformer VGGT su larga scala, che supera le sfide specifiche legate alle distribuzioni di attivazione e alla selezione dei campioni di calibrazione attraverso tecniche innovative di quantizzazione e campionamento, ottenendo riduzioni significative della memoria e accelerazioni nell'inferenza hardware mantenendo un'alta accuratezza nella ricostruzione 3D.

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Motion-Aware Transformer for Multi-Object Tracking

Il paper introduce MATR, un Transformer consapevole del movimento che risolve i conflitti tra query di rilevamento e tracciamento nei framework MOT basati su DETR, ottenendo risultati all'avanguardia su diversi dataset attraverso la previsione esplicita dei movimenti degli oggetti.

Xu Yang, Gady Agam2026-03-10💻 cs

GS-2M: Material-aware Gaussian Splatting for High-fidelity Mesh Reconstruction

Il paper propone GS-2M, un framework di ottimizzazione consapevole del materiale che, sfruttando la 3D Gaussian Splatting e una nuova strategia di supervisione della ruvidità basata sulla variazione fotometrica multi-vista, ricostruisce mesh ad alta fedeltà con superfici riflettenti senza ricorrere a componenti neurali complessi.

Dinh Minh Nguyen, Malte Avenhaus, Thomas Lindemeier2026-03-10💻 cs

Efficient Domain-Adaptive Multi-Task Dense Prediction with Vision Foundation Models

Il paper presenta FAMDA, un framework di adattamento di dominio non supervisionato che sfrutta i modelli fondazionali visivi come insegnanti in un paradigma di auto-addestramento per generare etichette pseudo di alta qualità, permettendo così di addestrare reti studente efficienti e compatte che raggiungono prestazioni all'avanguardia nella previsione densa multi-task per applicazioni robotiche.

Beomseok Kang, Niluthpol Chowdhury Mithun, Mikhail Sizintsev, Han-Pang Chiu, Supun Samarasekera2026-03-10💻 cs

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Il paper presenta QuantSparse, un framework unificato che combina quantizzazione del modello e sparsificazione dell'attenzione tramite distillazione multi-scala e riparametrizzazione di ordine superiore, ottenendo su HunyuanVideo-13B una significativa riduzione dello storage e un'accelerazione dell'inferenza senza compromettere la qualità della generazione video.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Il paper presenta DualFlow, un framework unificato ed efficiente basato su Rectified Flow che genera motion 3D realistici e sincronizzati per due persone, condizionati da testo, musica o sequenze di movimento precedenti, migliorando significativamente la coerenza semantica e la coordinazione temporale rispetto agli stati dell'arte.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

← Precedente Successivo →