cs.CV articoli | Gist.Science

QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification

Il paper presenta QuantSparse, un framework unificato che combina quantizzazione del modello e sparsificazione dell'attenzione tramite distillazione multi-scala e riparametrizzazione di ordine superiore, ottenendo su HunyuanVideo-13B una significativa riduzione dello storage e un'accelerazione dell'inferenza senza compromettere la qualità della generazione video.

Weilun Feng, Chuanguang Yang, Haotong Qin, Mingqiang Wu, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

Il paper presenta DualFlow, un framework unificato ed efficiente basato su Rectified Flow che genera motion 3D realistici e sincronizzati per due persone, condizionati da testo, musica o sequenze di movimento precedenti, migliorando significativamente la coerenza semantica e la coordinazione temporale rispetto agli stati dell'arte.

Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera2026-03-10💻 cs

PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement

Il paper presenta PHASE-Net, un modello di rete neurale leggero e teoricamente fondato sulle equazioni di Navier-Stokes che integra attenzione armonica spaziale e dinamica temporale per migliorare l'accuratezza e la robustezza della misurazione della fotopletismografia remota (rPPG) in condizioni di movimento e variazioni di illuminazione.

Bo Zhao, Dan Guo, Junzhe Cao, Yong Xu, Bochao Zou, Tao Tan, Yue Sun, Zitong Yu2026-03-10💻 cs

LMOD+: A Comprehensive Multimodal Dataset and Benchmark for Developing and Evaluating Multimodal Large Language Models in Ophthalmology

Il paper presenta LMOD+, un ampio dataset e benchmark multimodale per l'oftalmologia che espande significativamente le risorse precedenti per valutare le prestazioni dei modelli linguistici multimodali su diagnosi, stadiazione e rilevamento di bias, fornendo al contempo una valutazione sistematica di 24 modelli all'avanguardia.

Zhenyue Qin, Yang Liu, Yu Yin, Jinyu Ding, Haoran Zhang, Anran Li, Dylan Campbell, Xuansheng Wu, Ke Zou, Tiarnan D. L. Keenan, Emily Y. Chew, Zhiyong Lu, Yih Chung Tham, Ninghao Liu, Xiuzhen Zhang, Qingyu Chen2026-03-10💻 cs

Streaming Drag-Oriented Interactive Video Manipulation: Drag Anything, Anytime!

Il paper propone REVEL, un nuovo compito di manipolazione video interattiva in streaming che permette di modificare qualsiasi elemento in qualsiasi momento, e DragStream, un metodo senza addestramento che risolve i problemi di deriva latente e interferenza contestuale per garantire risultati visivamente coerenti nei modelli di diffusione video autoregressivi.

Junbao Zhou, Yuan Zhou, Kesen Zhao, Qingshan Xu, Beier Zhu, Richang Hong, Hanwang Zhang2026-03-10💻 cs

Real-Time Motion-Controllable Autoregressive Video Diffusion

Il paper presenta AR-Drag, il primo modello di diffusione video autoregressivo potenziato dal reinforcement learning per la generazione di video in tempo reale da immagini con controllo preciso del movimento, risolvendo i problemi di latenza e qualità tipici delle approcci esistenti.

Kesen Zhao, Jiaxin Shi, Beier Zhu, Junbao Zhou, Xiaolong Shen, Yuan Zhou, Qianru Sun, Hanwang Zhang2026-03-10💻 cs

Unsupervised Deep Generative Models for Anomaly Detection in Neuroimaging: A Systematic Scoping Review

Questa revisione sistematica esamina l'applicazione dei modelli generativi profondi non supervisionati per il rilevamento di anomalie nelle neuroimmagini, evidenziando il loro potenziale per la localizzazione di patologie senza annotazioni voxel-level, pur sottolineando le sfide legate all'eterogeneità metodologica e alla validazione esterna.

Youwan Mahé, Elise Bannier, Stéphanie Leplaideur, Elisa Fromont, Francesca Galassi2026-03-10💻 cs

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Questo lavoro introduce il nuovo compito di Segmentazione Audio-Visiva Continuale (CAVS) e propone il framework Collision-based Multi-modal Rehearsal (CMR) per mitigare la deriva semantica e la confusione da co-occorrenza, ottenendo risultati superiori rispetto ai metodi a modalità singola in scenari di apprendimento incrementale.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Il paper introduce Dream4Drive, un nuovo framework di generazione di dati sintetici che, decomponendo i video in mappe guida 3D e adattando modelli di mondo guidati, migliora significativamente le prestazioni dei modelli di percezione per la guida autonoma, specialmente nella gestione di casi limite, superando i limiti delle attuali strategie di addestramento.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

MoE-GS: Mixture of Experts for Dynamic Gaussian Splatting

Il paper propone MoE-GS, un nuovo framework unificato per la ricostruzione di scene dinamiche tramite Gaussian Splatting che integra esperti specializzati tramite un router aware del volume per migliorare la qualità della sintesi di nuove viste, offrendo anche strategie di ottimizzazione per l'efficienza e la distillazione.

In-Hwan Jin, Hyeongju Mun, Joonsoo Kim, Kugjin Yun, Kyeongbo Kong2026-03-10💻 cs

AnyPcc: Compressing Any Point Cloud with a Single Universal Model

Il paper introduce AnyPcc, un framework universale per la compressione di nuvole di punti che supera i limiti di generalizzazione degli metodi esistenti grazie a un modello di contesto robusto e a una strategia di fine-tuning adattivo per istanza, ottenendo prestazioni state-of-the-art su dataset diversificati con un basso overhead computazionale.

Kangli Wang, Qianxi Yi, Yuqi Ye, Shihao Li, Wei Gao2026-03-10💻 cs

Automated Pest Counting in Water Traps through Active Robotic Stirring for Occlusion Handling

Questo articolo propone un metodo automatizzato per il conteggio dei parassiti nelle trappole ad acqua che utilizza un sistema di agitazione robotica attiva e adattiva per ridurre l'occlusione, migliorando significativamente l'accuratezza e riducendo i tempi di esecuzione rispetto ai metodi tradizionali basati su immagini statiche.

Xumin Gao, Mark Stevens, Grzegorz Cielniak2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Il paper introduce CountFormer, un framework basato su DINOv2 che, sostituendo l'encoder di immagini con rappresentazioni foundation auto-supervisionate, mira a migliorare la consistenza strutturale nel conteggio di oggetti senza esempi, ottenendo risultati competitivi su FSC-147 e riducendo gli errori di sovrastima legati a componenti simmetriche o strutture complesse.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

SAGE: Structure-Aware Generative Video Transitions between Diverse Clips

Il paper presenta SAGE, un approccio zero-shot che genera transizioni video strutturalmente coerenti tra clip diverse combinando guida strutturale e sintesi generativa, superando le limitazioni dei metodi tradizionali e generativi attuali senza richiedere addestramento su dati specifici.

Mia Kan, Yilin Liu, Niloy Mitra2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Questo studio propone un metodo forense per rilevare immagini generate dall'IA analizzando il "rimbalzo diffusivo", ovvero come le immagini reagiscono a una leggera perturbazione e ricostruzione tramite modelli di diffusione, ottenendo un'accuratezza eccezionale (AUROC 0,993) nel distinguere foto reali da sintetiche anche in presenza di distorsioni comuni.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Il paper presenta Jr. AI Scientist, un sistema autonomo che emula il flusso di lavoro di un ricercatore junior per generare contributi scientifici validi partendo da lavori esistenti, valutandone al contempo le prestazioni e i rischi attraverso revisioni automatizzate e umane.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

MUGSQA: Novel Multi-Uncertainty-Based Gaussian Splatting Quality Assessment Method, Dataset, and Benchmarks

Il paper presenta MUGSQA, un nuovo metodo, dataset e benchmark basati su una valutazione soggettiva multi-distanza che tiene conto di diverse incertezze dei dati di input per analizzare la qualità percettiva e la robustezza dei metodi di ricostruzione 3D tramite Gaussian Splatting.

Tianang Chen, Jian Jin, Shilv Cai, Zhuangzi Li, Weisi Lin2026-03-10💻 cs

Counting Through Occlusion: Framework for Open World Amodal Counting

Il paper presenta CountOCC, un framework innovativo per il conteggio amodale in scenari open world che supera i limiti delle attuali metodologie sotto occlusione ricostruendo le caratteristiche degli oggetti nascosti tramite guida multimodale gerarchica e un obiettivo di equivalenza visiva, ottenendo risultati allo stato dell'arte su dataset appositamente creati come FSC-147-OCC e CARPK-OCC.

Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan2026-03-10💻 cs

Angular Gradient Sign Method: Uncovering Vulnerabilities in Hyperbolic Networks

Questo lavoro propone un nuovo metodo di attacco avversario per le reti iperboliche, denominato "Angular Gradient Sign", che sfrutta le proprietà geometriche dello spazio iperbolico applicando perturbazioni esclusivamente nella direzione angolare per ottenere tassi di inganno superiori rispetto alle tecniche tradizionali.

Minsoo Jo, Dongyoon Yang, Taesup Kim2026-03-10🤖 cs.LG

Video2Layout: Recall and Reconstruct Metric-Grounded Cognitive Map for Spatial Reasoning

Il paper presenta Video2Layout, un framework che supera i limiti delle mappe cognitive a griglia ricostruendo layout spaziali metrici basati su coordinate continue dei bordi degli oggetti, migliorando significativamente il ragionamento spaziale nei modelli multimodali.

Yibin Huang, Wang Xu, Wanyue Zhang, Helu Zhi, Jingjing Huang, Yangbin Xu, Yangang Sun, Conghui Zhu, Tiejun Zhao2026-03-10💻 cs

← Precedente Successivo →