cs.CV articoli | Gist.Science

altiro3D: Scene representation from single image and novel view synthesis

Il paper introduce altiro3D, una libreria gratuita che genera esperienze 3D realistiche e sintesi di nuove viste partendo da una singola immagine RGB o video piatto, utilizzando tecniche di stima della profondità, inpainting e proiezione geometrica per creare contenuti visualizzabili su display LCD a visione libera.

E. Canessa, L. Tenze2026-03-10💻 cs

Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset

Il paper presenta PD-REAL, un nuovo dataset su larga scala per la rilevazione di anomalie in 3D basato su modelli Play-Doh, e propone un innovativo framework di distillazione multiscala teacher-student che sfrutta informazioni RGB-D per superare i limiti degli approcci tradizionali e migliorare l'accuratezza della rilevazione.

Jianjian Qin, Chao Zhang, Chunzhi Gu, Zi Wang, Jun Yu, Yijin Wei, Hui Xiao, Xin Yua2026-03-10💻 cs

CA-Jaccard: Camera-aware Jaccard Distance for Person Re-identification

Il paper propone il CA-Jaccard, una nuova metrica di distanza per il re-identificazione delle persone che migliora l'affidabilità del Jaccard distance tradizionale integrando informazioni specifiche della telecamera attraverso vicini reciproci k-aware e un'espansione della query locale per mitigare l'impatto negativo delle variazioni tra telecamere.

Yiyu Chen, Zheyi Fan, Zhaoru Chen, Yixuan Zhu2026-03-10💻 cs

DivCon: Divide and Conquer for Complex Numerical and Spatial Reasoning in Text-to-Image Generation

Il paper introduce DivCon, un approccio "dividi e conquista" che migliora il ragionamento numerico e spaziale nella generazione di immagini da testo suddividendo il processo in sottocompiti gestibili, permettendo anche a modelli linguistici leggeri di ottenere risultati superiori rispetto ai metodi precedenti su benchmark complessi.

Yuhao Jia, Wenhan Tan2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Questa rassegna offre una panoramica completa e un benchmark delle tecnologie all'avanguardia per la generazione e il rilevamento dei deepfake, coprendo definizioni, dataset, metriche e le principali sottocategorie come lo scambio e la ricreazione facciale, l'editing degli attributi e la rilevazione di falsificazioni.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Gli autori propongono tre nuovi set di test ad alta qualità, denominati Hadrian, Eclipse e ND-Twins, per valutare le debolezze degli algoritmi di riconoscimento facciale su variazioni di attributi e somiglianze tra individui, superando la necessità di degradare artificialmente le immagini per aumentare la difficoltà di valutazione.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Questo paper identifica e modella teoricamente la fase di "corruzione" durante il fine-tuning few-shot dei modelli di diffusione, proponendo l'integrazione di reti neurali bayesiane per mitigare tale fenomeno e migliorare la fedeltà, la qualità e la diversità delle immagini generate senza costi aggiuntivi di inferenza.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

RDM: Recurrent Diffusion Model for Human Motion Generation

Il paper presenta RDM, un nuovo modello ricorrente di diffusione che utilizza flussi di normalizzazione per generare sequenze di movimento umano lunghe e coerenti con il testo, riducendo significativamente i costi computazionali evitando la completa denoising dei frame precedenti.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes Agapito2026-03-10💻 cs

Improving Visual Object Tracking through Visual Prompting

Il paper presenta PiVOT, un nuovo meccanismo di prompting visivo che sfrutta il modello fondazionale CLIP per generare e raffinare dinamicamente prompt online, migliorando le prestazioni del tracciamento generico di oggetti sopprimendo efficacemente gli oggetti distraenti.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-10💻 cs

Pose Prior Learner: Unsupervised Categorical Prior Learning for Pose Estimation

Il paper presenta il Pose Prior Learner (PPL), un metodo non supervisionato che apprende un prior categorico generale per la stima della posa di oggetti tramite una memoria gerarchica di pose prototipiche, migliorando l'accuratezza e la robustezza agli occlusi senza richiedere annotazioni umane.

Ziyu Wang, Shuangpeng Han, Mengmi Zhang2026-03-10💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Il paper presenta ExpGest, un nuovo framework basato su modelli di diffusione che genera gesti espressivi a corpo intero sincronizzando informazioni audio e testuali, superando i limiti dei metodi esistenti grazie a un classificatore di emozioni del rumore e a una migliore generalizzazione semantica.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei Liu2026-03-10💻 cs

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Questo studio propone un sistema neurosimbolico che, ricostruendo immagini mediche tramite primitive visive per generare spiegazioni strutturali ad alto livello, supera le architetture deep learning convenzionali nella diagnosi di anomalie istologiche offrendo al contempo maggiore accuratezza e trasparenza.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

Questo lavoro propone un framework per i modelli di diffusione in cui il processo generativo si adatta dinamicamente alle esigenze di ciascun campione, permettendo di variare la traiettoria di denoising e ridurre il numero di passaggi di campionamento mantenendo la qualità dell'immagine.

Yucheng Xing, Xiaodong Liu, Xin Wang2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

Il documento presenta Prithvi-EO-2.0, un nuovo modello fondazionale geospaziale open-source addestrato su 4,2 milioni di serie temporali globali che supera le prestazioni del suo predecessore e di altri modelli esistenti, offrendo versatilità in applicazioni come la risposta alle emergenze e il monitoraggio ambientale grazie a un approccio di scienza aperta collaborativa.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Il paper presenta iLLaVA, un metodo innovativo che accelera end-to-end i modelli multimodali grandi ottimizzando congiuntamente il codificatore di immagini e l'LLM tramite una strategia di fusione dei token che ricicla le informazioni utili, ottenendo significativi miglioramenti sia nell'efficienza computazionale che nelle prestazioni.

Lianyu Hu, Liqing Gao, Fanhua Shang, Liang Wan, Wei Feng2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Il paper propone HarmonicEval, una metrica di valutazione automatica senza riferimento che aggrega i punteggi per criterio in modo bottom-up, e introduce il benchmark MMHE con 18.000 giudizi umani per dimostrare che il metodo supera le metriche convenzionali nella valutazione multi-task e multi-criterio dei modelli visione-linguaggio.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

Il paper presenta LangSurf, un metodo che allinea con precisione i campi linguistici 3D alle superfici degli oggetti mediante un'addestramento congiunto e un modulo di consapevolezza contestuale gerarchica, superando le prestazioni dello stato dell'arte per la segmentazione semantica open-vocabulary e abilitando compiti avanzati di editing e rimozione in 3D.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Questo lavoro propone un metodo che sfrutta modelli visione-linguaggio preaddestrati per apprendere modelli del mondo simbolici astratti da dimostrazioni brevi, consentendo a sistemi robotici di pianificare e risolvere compiti decisionali a lungo termine con una generalizzazione zero-shot in scenari complessi e non visti in precedenza.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG

Efficient Semi-Supervised Adversarial Training via Latent Clustering-Based Data Reduction

Questo paper propone strategie di riduzione dei dati basate sul clustering nello spazio latente per ottimizzare l'addestramento avversario semi-supervisionato, consentendo di ridurre drasticamente il volume di dati non etichettati e i costi computazionali mantenendo un'elevata robustezza del modello.

Somrita Ghosh, Yuelin Xu, Xiao Zhang2026-03-10🤖 cs.LG

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Questo articolo propone un modello di diffusione agnostico rispetto al problema, basato sulla stima del termine guidato tramite MAP, che sfrutta score network preaddestrati e un prior gaussiano per risolvere problemi inversi nell'elaborazione delle immagini con una migliore preservazione dei contenuti rispetto agli stati dell'arte.

Pingping Tao, Haixia Liu, Jing Su2026-03-10💻 cs

← Precedente Successivo →