cs.CV articoli | Gist.Science

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Il paper propone SFDA-PFT, un metodo efficiente di adattamento di dominio senza sorgente che utilizza la traduzione personalizzata delle caratteristiche nello spazio latente per migliorare il riconoscimento delle espressioni facciali adattando i modelli pre-addestrati ai dati target neutri senza richiedere dati sorgente o sintesi di immagini.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric GrangerWed, 11 Ma🤖 cs.AI

EgoCross: Benchmarking Multimodal Large Language Models for Cross-Domain Egocentric Video Question Answering

Il paper introduce EgoCross, un benchmark completo per valutare la capacità di generalizzazione cross-dominio dei Modelli Linguistici Multimodali nella risposta a domande su video in prima persona, coprendo scenari complessi come chirurgia, industria, sport estremi e visione animale e rivelando le attuali limitazioni dei modelli esistenti.

Yanjun Li, Yuqian Fu, Tianwen Qian, Qi'ao Xu, Silong Dai, Danda Pani Paudel, Luc Van Gool, Xiaoling WangWed, 11 Ma🤖 cs.AI

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Il paper presenta YOPO, un metodo end-to-end basato su transformer che unifica rilevamento e stima della posa 9D a livello di categoria da singole immagini RGB, ottenendo prestazioni all'avanguardia su tre benchmark senza richiedere dati aggiuntivi come profondità o modelli CAD.

Hakjin Lee, Junghoon Seo, Jaehoon SimWed, 11 Ma💻 cs

CoRe-GS: Coarse-to-Refined Gaussian Splatting with Semantic Object Focus

Il paper presenta CoRe-GS, un framework di Gaussian Splatting che ottimizza selettivamente solo le regioni di interesse (POI) attraverso un approccio "coarse-to-refined" e un filtraggio basato sul colore, riducendo drasticamente i tempi di calcolo e migliorando la qualità della ricostruzione per applicazioni robotiche in tempo reale.

Hannah Schieber, Dominik Frischmann, Victor Schaack, Simon Boche, Angela Schoellig, Stefan Leutenegger, Daniel RothWed, 11 Ma💻 cs

VocSegMRI: Multimodal Learning for Precise Vocal Tract Segmentation in Real-time MRI

Il paper presenta VocSegMRI, un framework multimodale che integra segnali video, audio e fonologici tramite fusione cross-attention e apprendimento contrastivo per ottenere una segmentazione precisa e robusta delle strutture articolatorie nella risonanza magnetica in tempo reale, raggiungendo prestazioni state-of-the-art sul dataset USC-75.

Daiqi Liu, Tomás Arias-Vergara, Johannes Enk, Fangxu Xing, Maureen Stone, Jerry L. Prince, Jana Hutter, Andreas Maier, Jonghye Woo, Paula Andrea Pérez-ToroWed, 11 Ma💻 cs

Kuramoto Orientation Diffusion Models

Il paper propone un modello generativo basato su score che utilizza le dinamiche stocastiche di Kuramoto su domini periodici per migliorare la generazione di immagini ricche di orientamento, come impronte digitali e texture, sfruttando la sincronizzazione e la desincronizzazione delle fasi per modellare efficacemente i pattern angolari coerenti.

Yue Song, T. Anderson Keller, Sevan Brodjian, Takeru Miyato, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Automated Coral Spawn Monitoring for Reef Restoration: The Coral Spawn and Larvae Imaging Camera System (CSLICS)

Il documento presenta il CSLICS, un sistema di imaging automatizzato a basso costo che utilizza tecniche di visione artificiale per contare con precisione le uova di corallo e le larve, riducendo drasticamente il lavoro manuale e facilitando il ripristino delle barriere coralline.

Dorian Tsai, Christopher A. Brunner, Riki Lamont, F. Mikaela Nordborg, Andrea Severati, Java Terry, Karen Jackel, Matthew Dunbabin, Tobias Fischer, Scarlett RaineWed, 11 Ma💻 cs

Learning Encoding-Decoding Direction Pairs to Unveil Concepts of Influence in Deep Vision Networks

Questo lavoro propone un metodo non supervisionato per recuperare i meccanismi di codifica e decodifica dei concetti nei network di visione profonda, identificando coppie di direzioni latenti che permettono di interpretare, correggere e manipolare il comportamento dei modelli senza ricorrere alla ricostruzione delle feature.

Alexandros Doumanoglou, Kurt Driessens, Dimitrios ZarpalasWed, 11 Ma💻 cs

VSSFlow: Unifying Video-conditioned Sound and Speech Generation via Joint Learning

Il paper presenta VSSFlow, un framework unificato basato sul flusso di matching che risolve congiuntamente la generazione di suoni e parlato condizionata dal video, superando le prestazioni dei modelli specifici per dominio grazie a un meccanismo di aggregazione delle condizioni disaccoppiato e all'apprendimento congiunto.

Xin Cheng, Yuyue Wang, Xihua Wang, Yihan Wu, Kaisi Guan, Yijing Chen, Peng Zhang, Xiaojiang Liu, Meng Cao, Ruihua SongWed, 11 Ma🤖 cs.AI

v-HUB: A Benchmark for Video Humor Understanding from Vision and Sound

Il paper introduce v-HUB, un nuovo benchmark per la comprensione dell'umorismo nei video basato su segnali visivi e sonori, dimostrando attraverso la valutazione di diversi modelli MLLM che l'integrazione dell'audio migliora significativamente le prestazioni in questo compito complesso.

Zhengpeng Shi, Yanpeng Zhao, Jianqun Zhou, Yuxuan Wang, Qinrong Cui, Wei Bi, Songchun Zhu, Bo Zhao, Zilong ZhengWed, 11 Ma🤖 cs.AI

LLaVAShield: Safeguarding Multimodal Multi-Turn Dialogues in Vision-Language Models

Il paper introduce LLaVAShield, un sistema di sicurezza progettato per proteggere i dialoghi multimodali multi-turno nei modelli visione-linguaggio, supportato dal nuovo dataset MMDS e dal framework di red teaming MMRT, che supera le soluzioni esistenti nella rilevazione dei rischi contestuali e nell'adattabilità alle policy.

Guolei Huang, Qinzhi Peng, Gan Xu, Yao Huang, Yuxuan Lu, Yongjun ShenWed, 11 Ma💻 cs

Mapping Historic Urban Footprints in France: Balancing Quality, Scalability and AI Techniques

Questo studio presenta un pipeline di deep learning scalabile basato su una rete U-Net a doppio passaggio che, analizzando le mappe storiche Scan Histo (1925-1950), genera il primo dataset nazionale a scala aperta degli impronte urbane in Francia, superando le sfide legate alla complessità radiometrica e stilistica delle fonti originali.

Walid Rabehi, Marion Le Texier, Rémi LemoyWed, 11 Ma💻 cs

NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

Il paper introduce NavSpace, un benchmark per valutare le capacità di percezione e ragionamento spaziale degli agenti di navigazione, e propone SNav, un nuovo modello che supera le prestazioni degli agenti esistenti sia sul benchmark che su robot reali.

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao DongWed, 11 Ma🤖 cs.AI

Exploring Single Domain Generalization of LiDAR-based Semantic Segmentation under Imperfect Labels

Questo articolo introduce il nuovo compito di generalizzazione del dominio per la segmentazione semantica LiDAR con etichette rumorose (DGLSS-NL), proponendo il framework DuNe che supera i limiti degli approcci esistenti ottenendo prestazioni all'avanguardia su diversi benchmark.

Weitong Kong, Zichao Zeng, Di Wen, Jiale Wei, Kunyu Peng, June Moh Goo, Jan Boehm, Rainer StiefelhagenWed, 11 Ma🤖 cs.LG

RECODE: Reasoning Through Code Generation for Visual Question Answering

Il paper presenta RECODE, un framework agentico che migliora il ragionamento visivo nei modelli multimodali trasformando l'analisi di grafici e diagrammi nella generazione e verifica iterativa di codice eseguibile, superando così i limiti della percezione basata sui pixel.

Junhong Shen, Mu Cai, Bo Hu, Ameet Talwalkar, David A Ross, Cordelia Schmid, Alireza FathiWed, 11 Ma🤖 cs.AI

Real-Time Neural Video Compression with Unified Intra and Inter Coding

Il paper presenta un nuovo framework di compressione video neurale in tempo reale che unifica la codifica intra e inter in un unico modello, risolvendo problemi come la disocclusione e la propagazione degli errori e ottenendo una riduzione del 12,1% del tasso BD rispetto a DCVC-RT.

Hui Xiang, Yifan Bian, Li Li, Jingran Wu, Xianguo Zhang, Dong LiuWed, 11 Ma💻 cs

From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors

Il lavoro presenta FALCON, un nuovo paradigma che colma il divario di ragionamento spaziale nei modelli Vision-Language-Action integrando token 3D ricchi di informazioni geometriche direttamente nel modulo di azione, ottenendo così prestazioni all'avanguardia su numerosi compiti reali e simulati senza richiedere sensori specializzati o modifiche architetturali.

Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan ZhouWed, 11 Ma🤖 cs.AI

Proper Body Landmark Subset Enables More Accurate and 5X Faster Recognition of Isolated Signs in LIBRAS

Questo studio dimostra che la selezione di un sottoinsieme appropriato di punti di riferimento corporei, combinata con tecniche di imputazione basate su spline, consente un riconoscimento dei segni isolati in LIBRAS con un'accuratezza pari o superiore agli stati dell'arte e con una velocità di elaborazione cinque volte superiore rispetto ai metodi precedenti.

Daniele L. V. dos Santos, Thiago B. Pereira, Carlos Eduardo G. R. Alves, Richard J. M. G. Tello, Francisco de A. Boldt, Thiago M. PaixãoWed, 11 Ma💻 cs

SynHLMA:Synthesizing Hand Language Manipulation for Articulated Object with Discrete Human Object Interaction Representation

Il paper presenta SynHLMA, un nuovo framework che genera sequenze di manipolazione delle mani per oggetti articolati basandosi su istruzioni linguistiche, utilizzando una rappresentazione discreta delle interazioni e un modello linguistico allineato per garantire grappi realistici e funzionali.

Wang zhi, Yuyan Liu, Liu Liu, Li Zhang, Ruixuan Lu, Dan GuoWed, 11 Ma🤖 cs.AI

Who Made This? Fake Detection and Source Attribution with Diffusion Features

Il paper presenta FRIDA, un framework leggero ed efficiente che utilizza le caratteristiche di un modello Stable Diffusion pre-addestrato per rilevare e attribuire le immagini generate dall'IA, ottenendo prestazioni all'avanguardia nella rilevazione cross-generatori e nell'identificazione della fonte.

Simone Bonechi, Paolo Andreini, Barbara Toniella CorradiniWed, 11 Ma💻 cs

← Precedente Successivo →