Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset

Il paper presenta PD-REAL, un nuovo dataset su larga scala per la rilevazione di anomalie in 3D basato su modelli Play-Doh, e propone un innovativo framework di distillazione multiscala teacher-student che sfrutta informazioni RGB-D per superare i limiti degli approcci tradizionali e migliorare l'accuratezza della rilevazione.

Jianjian Qin, Chao Zhang, Chunzhi Gu, Zi Wang, Jun Yu, Yijin Wei, Hui Xiao, Xin Yua2026-03-10💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Questa rassegna offre una panoramica completa e un benchmark delle tecnologie all'avanguardia per la generazione e il rilevamento dei deepfake, coprendo definizioni, dataset, metriche e le principali sottocategorie come lo scambio e la ricreazione facciale, l'editing degli attributi e la rilevazione di falsificazioni.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng Tao2026-03-10💻 cs

Goldilocks Test Sets for Face Verification

Gli autori propongono tre nuovi set di test ad alta qualità, denominati Hadrian, Eclipse e ND-Twins, per valutare le debolezze degli algoritmi di riconoscimento facciale su variazioni di attributi e somiglianze tra individui, superando la necessità di degradare artificialmente le immagini per aumentare la difficoltà di valutazione.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. Bowyer2026-03-10💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Questo paper identifica e modella teoricamente la fase di "corruzione" durante il fine-tuning few-shot dei modelli di diffusione, proponendo l'integrazione di reti neurali bayesiane per mitigare tale fenomeno e migliorare la fedeltà, la qualità e la diversità delle immagini generate senza costi aggiuntivi di inferenza.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Questo studio propone un sistema neurosimbolico che, ricostruendo immagini mediche tramite primitive visive per generare spiegazioni strutturali ad alto livello, supera le architetture deep learning convenzionali nella diagnosi di anomalie istologiche offrendo al contempo maggiore accuratezza e trasparenza.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof Krawiec2026-03-10🤖 cs.LG

Prithvi-EO-2.0: A Versatile Multi-Temporal Foundation Model for Earth Observation Applications

Il documento presenta Prithvi-EO-2.0, un nuovo modello fondazionale geospaziale open-source addestrato su 4,2 milioni di serie temporali globali che supera le prestazioni del suo predecessore e di altri modelli esistenti, offrendo versatilità in applicazioni come la risposta alle emergenze e il monitoraggio ambientale grazie a un approccio di scienza aperta collaborativa.

Daniela Szwarcman, Sujit Roy, Paolo Fraccaro, {\TH}orsteinn Elí Gíslason, Benedikt Blumenstiel, Rinki Ghosal, Pedro Henrique de Oliveira, Joao Lucas de Sousa Almeida, Rocco Sedona, Yanghui Kang, Srija Chakraborty, Sizhe Wang, Carlos Gomes, Ankur Kumar, Myscon Truong, Denys Godwin, Hyunho Lee, Chia-Yu Hsu, Rohit Lal, Ata Akbari Asanjan, Besart Mujeci, Disha Shidham, Trevor Keenan, Paulo Arevalo, Wenwen Li, Hamed Alemohammad, Pontus Olofsson, Christopher Hain, Robert Kennedy, Bianca Zadrozny, David Bell, Gabriele Cavallaro, Campbell Watson, Manil Maskey, Rahul Ramachandran, Juan Bernabe Moreno2026-03-10💻 cs

Multi-modal, Multi-task, Multi-criteria Automatic Evaluation with Vision Language Models

Il paper propone HarmonicEval, una metrica di valutazione automatica senza riferimento che aggrega i punteggi per criterio in modo bottom-up, e introduce il benchmark MMHE con 18.000 giudizi umani per dimostrare che il metodo supera le metriche convenzionali nella valutazione multi-task e multi-criterio dei modelli visione-linguaggio.

Masanari Ohi, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue2026-03-10💬 cs.CL

LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding

Il paper presenta LangSurf, un metodo che allinea con precisione i campi linguistici 3D alle superfici degli oggetti mediante un'addestramento congiunto e un modulo di consapevolezza contestuale gerarchica, superando le prestazioni dello stato dell'arte per la segmentazione semantica open-vocabulary e abilitando compiti avanzati di editing e rimozione in 3D.

Hao Li, Minghan Qin, Zhengyu Zou, Diqi He, Xinhao Ji, Bohan Li, Bingquan Dai, Dingewn Zhang, Junwei Han2026-03-10💻 cs

From Pixels to Predicates: Learning Symbolic World Models via Pretrained Vision-Language Models

Questo lavoro propone un metodo che sfrutta modelli visione-linguaggio preaddestrati per apprendere modelli del mondo simbolici astratti da dimostrazioni brevi, consentendo a sistemi robotici di pianificare e risolvere compiti decisionali a lungo termine con una generalizzazione zero-shot in scenari complessi e non visti in precedenza.

Ashay Athalye, Nishanth Kumar, Tom Silver, Yichao Liang, Jiuguang Wang, Tomás Lozano-Pérez, Leslie Pack Kaelbling2026-03-10🤖 cs.LG