cs.CV articoli | Gist.Science

Kuramoto Orientation Diffusion Models

Il paper propone un modello generativo basato su score che utilizza le dinamiche stocastiche di Kuramoto su domini periodici per migliorare la generazione di immagini ricche di orientamento, come impronte digitali e texture, sfruttando la sincronizzazione e la desincronizzazione delle fasi per modellare efficacemente i pattern angolari coerenti.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max Welling2026-03-11🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Il documento presenta il CSLICS, un sistema di imaging automatizzato a basso costo che utilizza tecniche di visione artificiale per contare con precisione le uova di corallo e le larve, riducendo drasticamente il lavoro manuale e facilitando il ripristino delle barriere coralline.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett Raine2026-03-11💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Questo lavoro propone un metodo non supervisionato per recuperare i meccanismi di codifica e decodifica dei concetti nei network di visione profonda, identificando coppie di direzioni latenti che permettono di interpretare, correggere e manipolare il comportamento dei modelli senza ricorrere alla ricostruzione delle feature.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios Zarpalas2026-03-11💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua Song2026-03-11🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Il paper introduce v-HUB, un nuovo benchmark per la comprensione dell'umorismo nei video basato su segnali visivi e sonori, dimostrando attraverso la valutazione di diversi modelli MLLM che l'integrazione dell'audio migliora significativamente le prestazioni in questo compito complesso.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong Zheng2026-03-11🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

Il paper introduce LLaVAShield, un sistema di sicurezza progettato per proteggere i dialoghi multimodali multi-turno nei modelli visione-linguaggio, supportato dal nuovo dataset MMDS e dal framework di red teaming MMRT, che supera le soluzioni esistenti nella rilevazione dei rischi contestuali e nell'adattabilità alle policy.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun Shen2026-03-11💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Questo studio presenta un pipeline di deep learning scalabile basato su una rete U-Net a doppio passaggio che, analizzando le mappe storiche Scan Histo (1925-1950), genera il primo dataset nazionale a scala aperta degli impronte urbane in Francia, superando le sfide legate alla complessità radiometrica e stilistica delle fonti originali.

Walid Rabehi, Marion Le Texier, Rémi Lemoy2026-03-11💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Il paper introduce NavSpace, un benchmark per valutare le capacità di percezione e ragionamento spaziale degli agenti di navigazione, e propone SNav, un nuovo modello che supera le prestazioni degli agenti esistenti sia sul benchmark che su robot reali.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong2026-03-11🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Questo articolo introduce il nuovo compito di generalizzazione del dominio per la segmentazione semantica LiDAR con etichette rumorose (DGLSS-NL), proponendo il framework DuNe che supera i limiti degli approcci esistenti ottenendo prestazioni all'avanguardia su diversi benchmark.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer Stiefelhagen2026-03-11🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Il paper presenta RECODE, un framework agentico che migliora il ragionamento visivo nei modelli multimodali trasformando l'analisi di grafici e diagrammi nella generazione e verifica iterativa di codice eseguibile, superando così i limiti della percezione basata sui pixel.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza Fathi2026-03-11🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Il paper presenta un nuovo framework di compressione video neurale in tempo reale che unifica la codifica intra e inter in un unico modello, risolvendo problemi come la disocclusione e la propagazione degli errori e ottenendo una riduzione del 12,1% del tasso BD rispetto a DCVC-RT.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong Liu2026-03-11💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Il lavoro presenta FALCON, un nuovo paradigma che colma il divario di ragionamento spaziale nei modelli Vision-Language-Action integrando token 3D ricchi di informazioni geometriche direttamente nel modulo di azione, ottenendo così prestazioni all'avanguardia su numerosi compiti reali e simulati senza richiedere sensori specializzati o modifiche architetturali.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou2026-03-11🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Questo studio dimostra che la selezione di un sottoinsieme appropriato di punti di riferimento corporei, combinata con tecniche di imputazione basate su spline, consente un riconoscimento dei segni isolati in LIBRAS con un'accuratezza pari o superiore agli stati dell'arte e con una velocità di elaborazione cinque volte superiore rispetto ai metodi precedenti.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. Paixão2026-03-11💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Il paper presenta SynHLMA, un nuovo framework che genera sequenze di manipolazione delle mani per oggetti articolati basandosi su istruzioni linguistiche, utilizzando una rappresentazione discreta delle interazioni e un modello linguistico allineato per garantire grappi realistici e funzionali.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan Guo2026-03-11🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

Il paper presenta FRIDA, un framework leggero ed efficiente che utilizza le caratteristiche di un modello Stable Diffusion pre-addestrato per rilevare e attribuire le immagini generate dall'IA, ottenendo prestazioni all'avanguardia nella rilevazione cross-generatori e nell'identificazione della fonte.

Simone Bonechi, Paolo Andreini, Barbara Toniella Corradini2026-03-11💻 cs

SPAN: Spatial-Projection Alignment for Monocular 3D Object Detection

Il paper propone SPAN, un metodo innovativo per la rilevazione 3D da monoculare che migliora la coerenza geometrica e le prestazioni integrando allineamento spaziale e di proiezione 3D-2D con una strategia di apprendimento gerarchico per correggere le limitazioni dei paradigmi di predizione disaccoppiati.

Yifan Wang, Yian Zhao, Fanqi Pu, Xiaochen Yang, Yang Tang, Xi Chen, Wenming Yang2026-03-11💻 cs

MediRound: Multi-Round Entity-Level Reasoning Segmentation in Medical Images

Il paper introduce MediRound, un modello e un nuovo dataset (MR-MedSeg) per la segmentazione medica basata su ragionamento multi-round a livello di entità, che supera i limiti dei metodi tradizionali a dialogo singolo attraverso un meccanismo di giudizio e correzione per mitigare la propagazione degli errori.

Qinyue Tong, Ziqian Lu, Jun Liu, Rui Zuo, Zheming Lu2026-03-11🤖 cs.AI

Mitigating Long-Tail Bias in HOI Detection via Adaptive Diversity Cache

Il paper propone l'Adaptive Diversity Cache (ADC), un modulo plug-and-play privo di addestramento che mitiga il bias a lunga coda nella rilevazione delle interazioni uomo-oggetto (HOI) accumulando rappresentazioni di feature diversificate e adattando dinamicamente la capacità di archiviazione per migliorare la rilevazione delle categorie rare senza richiedere ulteriore ottimizzazione.

Yuqiu Jiang, Xiaozhen Qiao, Yifan Chen, Ye Zheng, Zhe Sun, Xuelong Li2026-03-11🤖 cs.AI

V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs

Il paper presenta V-Attack, un nuovo metodo di attacco avversario per i Large Vision-Language Models che supera i limiti delle tecniche esistenti agendo direttamente sulle caratteristiche "value" disaccoppiate per ottenere un controllo semantico locale preciso e significativo.

Sen Nie, Jie Zhang, Jianxin Yan, Shiguang Shan, Xilin Chen2026-03-11💻 cs

When Robots Obey the Patch: Universal Transferable Patch Attacks on Vision-Language-Action Models

Il paper presenta UPA-RFAS, un framework unificato che genera patch fisiche universali e trasferibili per attaccare modelli Vision-Language-Action in scenari black-box, sfruttando obiettivi nello spazio delle feature, un processo min-max robusto e perdite specifiche per il dominio VLA per garantire il successo dell'attacco su diverse architetture e compiti.

Hui Lu, Yi Yu, Yiming Yang, Chenyu Yi, Qixin Zhang, Bingquan Shen, Alex C. Kot, Xudong Jiang2026-03-11🤖 cs.AI

← Precedente Successivo →