cs.CV articoli | Gist.Science

3DSPA: A 3D Semantic Point Autoencoder for Evaluating Video Realism

Il paper presenta 3DSPA, un autoencoder di punti semantici 3D che valuta automaticamente il realismo dei video generati dall'IA integrando traiettorie spaziotemporali, informazioni di profondità e caratteristiche semantiche per rilevare violazioni delle leggi fisiche e garantire coerenza temporale senza bisogno di un video di riferimento.

Bhavik Chandna, Kelsey R. Allen2026-02-25💻 cs

Momentum Guidance: Plug-and-Play Guidance for Flow Models

Il paper introduce la Momentum Guidance, una tecnica plug-and-play che migliora la qualità dei campioni nei modelli generativi basati su flussi sfruttando una media mobile esponenziale delle velocità passate lungo la traiettoria ODE, ottenendo risultati superiori senza aumentare il costo computazionale rispetto ai metodi tradizionali.

Runlong Liao, Jian Yu, Baiyu Su + 3 more2026-02-25🤖 cs.LG

Aesthetic Camera Viewpoint Suggestion with 3D Aesthetic Field

Questo lavoro introduce un campo estetico 3D basato su Gaussian Splatting che, estraendo conoscenze da modelli 2D preaddestrati e utilizzando catture sparse, permette di suggerire efficientemente punti di vista fotografici esteticamente superiori senza ricorrere a costose esplorazioni RL o acquisizioni dense.

Sheyang Tang, Armin Shafiee Sarvestani, Jialu Xu + 2 more2026-02-25💻 cs

SimLBR: Learning to Detect Fake Images by Learning to Detect Real Images

Il paper presenta SimLBR, un framework efficiente che migliora la generalizzazione nella rilevazione di immagini fake definendo un confine decisionale attorno alla distribuzione delle immagini reali tramite la regolarizzazione del blending latente, ottenendo risultati superiori su benchmark difficili e introducendo nuove metriche di valutazione orientate all'affidabilità.

Aayush Dhakal, Subash Khanal, Srikumar Sastry + 4 more2026-02-25💻 cs

gQIR: Generative Quanta Image Reconstruction

Il paper presenta gQIR, un metodo che adatta i modelli di diffusione latenti su larga scala per ricostruire immagini di alta qualità da burst di frame quantici SPAD rumorosi e sparsi, superando i limiti delle pipeline tradizionali in condizioni di scarsa illuminazione.

Aryan Garg, Sizhuo Ma, Mohit Gupta2026-02-25💻 cs

MedCLIPSeg: Probabilistic Vision-Language Adaptation for Data-Efficient and Generalizable Medical Image Segmentation

Il paper presenta MedCLIPSeg, un nuovo framework che adatta i modelli visione-linguaggio CLIP per la segmentazione di immagini mediche attraverso un'attenzione probabilistica e una perdita contrastiva, ottenendo risultati superiori in termini di accuratezza, efficienza dei dati e generalizzazione su diverse modalità di imaging e organi.

Taha Koleilat, Hojat Asgariandehkordi, Omid Nejati Manzari + 3 more2026-02-25💬 cs.CL

SceMoS: Scene-Aware 3D Human Motion Synthesis by Planning with Geometry-Grounded Tokens

SceMoS è un framework innovativo per la sintesi di movimenti umani 3D guidati dal testo che, disaccoppiando la pianificazione globale dall'esecuzione locale tramite rappresentazioni 2D (immagini BEV e mappe di altezza), raggiunge uno stato dell'arte nel realismo e nell'accuratezza dei contatti riducendo al contempo i parametri di addestramento rispetto ai metodi basati su dati 3D completi.

Anindita Ghosh, Vladislav Golyanik, Taku Komura + 3 more2026-02-25💻 cs

Path-Decoupled Hyperbolic Flow Matching for Few-Shot Adaptation

Il paper propone l'Hyperbolic Flow Matching (HFM) con disaccoppiamento del percorso, un metodo che supera i limiti della geometria euclidea sfruttando la varietà di Lorentz per allineare in modo più efficace le caratteristiche visive e semantiche nel contesto dell'adattamento few-shot, ottenendo risultati state-of-the-art su 11 benchmark.

Lin Li, Ziqi Jiang, Gefan Ye + 5 more2026-02-25💻 cs

Pip-Stereo: Progressive Iterations Pruner for Iterative Optimization based Stereo Matching

Il paper presenta Pip-Stereo, un metodo di matching stereo che supera i limiti di efficienza delle architetture iterative tradizionali su hardware edge grazie a una strategia di pruning progressivo, un trasferimento collaborativo di prior monoculari e un nuovo operatore FlashGRU, ottenendo prestazioni in tempo reale e alta accuratezza.

Jintu Zheng, Qizhe Liu, HuangXin Xu + 1 more2026-02-25💻 cs

Strategy-Supervised Autonomous Laparoscopic Camera Control via Event-Driven Graph Mining

Il lavoro presenta un sistema autonomo per il controllo della camera laparoscopica che combina l'estrazione di strategie da grafi temporali con un modello visione-linguaggio e un controllo di sicurezza, dimostrando prestazioni superiori rispetto ai chirurghi junior nella stabilizzazione dell'immagine e nel mantenimento della inquadratura.

Keyu Zhou, Peisen Xu, Yahao Wu + 3 more2026-02-25💻 cs

How Do Inpainting Artifacts Propagate to Language?

Questo studio analizza come gli artefatti introdotti dall'inpainting basato su diffusione influenzino la generazione linguistica nei modelli visione-linguaggio, fornendo un quadro diagnostico che collega la fedeltà della ricostruzione visiva alla qualità delle didascalie generate.

Pratham Yashwante, Davit Abrahamyan, Shresth Grover + 1 more2026-02-25🤖 cs.AI

A Lightweight Vision-Language Fusion Framework for Predicting App Ratings from User Interfaces and Metadata

Questo studio propone un framework leggero di fusione visione-linguaggio che integra MobileNetV3 e DistilBERT per prevedere le valutazioni delle app mobili combinando interfacce utente e informazioni semantiche, ottenendo risultati di alta precisione e favorendo un'implementazione efficiente su dispositivi edge.

Azrin Sultana, Firoz Ahmed2026-02-25💻 cs

Progressive Per-Branch Depth Optimization for DEFOM-Stereo and SAM3 Joint Analysis in UAV Forestry Applications

Questo articolo presenta una pipeline progressiva che integra DEFOM-Stereo, SAM3 e un'ottimizzazione multistadio della profondità per ridurre il rumore nelle mappe di disparità e generare nuvole di punti 3D coerenti per il singolo ramo, abilitando così la potatura autonoma degli alberi da parte di droni nelle foreste.

Yida Lin, Bing Xue, Mengjie Zhang + 2 more2026-02-25⚡ eess

Beyond Human Performance: A Vision-Language Multi-Agent Approach for Quality Control in Pharmaceutical Manufacturing

Questo studio presenta un sistema di controllo qualità farmaceutico basato su un approccio multi-agente che combina modelli di deep learning e vision-language per automatizzare il rilevamento delle colonie batteriche, riducendo la necessità di verifica umana dell'85% e garantendo conformità normativa.

Subhra Jyoti Mandal, Lara Rachidi, Puneet Jain + 2 more2026-02-25💻 cs

Robust Spiking Neural Networks Against Adversarial Attacks

Questo studio propone il metodo di ottimizzazione Threshold Guarding (TGO) per migliorare la robustezza delle Reti Neurali a Spike (SNN) contro gli attacchi avversari, spostando i potenziali di membrana lontano dalle soglie e introducendo rumore per ridurre la probabilità di inversione dello stato dei neuroni.

Shuai Wang, Malu Zhang, Yulin Jiang + 7 more2026-02-25💻 cs

Sample-efficient evidence estimation of score based priors for model selection

Il paper propone un metodo efficiente in termini di campioni per stimare l'evidenza del modello di prior basati su diffusione, consentendo la selezione del prior corretto e la diagnosi di inadeguatezza in problemi inversi di imaging altamente ill-posed, come l'imaging di buchi neri, utilizzando un numero ridotto di campioni posteriori.

Frederic Wang, Katherine L. Bouman2026-02-25📊 stat

The Finite Primitive Basis Theorem for Computational Imaging: Formal Foundations of the OperatorGraph Representation

Il teorema della base primitiva finita dimostra che ogni modello di imaging computazionale può essere rappresentato in modo approssimato come un grafo diretto aciclico composto da soli 11 primitivi canonici, fornendo così le fondamenta matematiche per il framework del Physics World Model.

Chengshuai Yang2026-02-25💻 cs

WildGHand: Learning Anti-Perturbation Gaussian Hand Avatars from Monocular In-the-Wild Videos

Il paper introduce WildGHand, un framework basato sull'ottimizzazione che utilizza lo splatting gaussiano 3D e un modulo di disaccoppiamento delle perturbazioni per ricostruire avatar di mani ad alta fedeltà da video monoculari in ambienti reali, superando le limitazioni delle metodologie esistenti in presenza di interazioni con oggetti, pose estreme e variazioni di illuminazione.

Hanhui Li, Xuan Huang, Wanquan Liu + 5 more2026-02-25💻 cs

BFA++: Hierarchical Best-Feature-Aware Token Prune for Multi-View Vision Language Action Model

Il paper presenta BFA++, un framework di pruning dinamico dei token progettato specificamente per i modelli Vision-Language-Action che, attraverso una strategia gerarchica a due livelli per identificare le regioni e le viste più rilevanti, migliora significativamente l'efficienza computazionale e il tasso di successo nelle manipolazioni robotiche reali.

Haosheng Li, Weixin Mao, Zihan Lan + 6 more2026-02-25💻 cs

AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents

Il paper presenta AIForge-Doc, il primo benchmark dedicato alla rilevazione di falsificazioni documentali finanziarie generate da modelli di diffusione, dimostrando che gli attuali rilevatori e i modelli VLM falliscono nel distinguere tali manipolazioni rispetto ai metodi di editing tradizionali.

Jiaqi Wu, Yuchen Zhou, Muduo Xu + 6 more2026-02-25💻 cs

← Precedente Successivo →