cs.CV articoli | Gist.Science

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Il paper propone un metodo interpretabile per il recupero fine-granularità di movimenti 3D tramite immagini di angoli articolari e un'interazione tardiva token-patch, superando i limiti dei metodi basati su embedding globali e ottenendo risultati superiori su HumanML3D e KIT-ML.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu XiaoWed, 11 Ma💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

Il paper presenta ACADiff, un framework basato su diffusione latente adattiva e consapevole dei dati clinici che sintetizza con successo le modalità di neuroimaging cerebrali mancanti (come sMRI, FDG-PET e AV45-PET) per migliorare la diagnosi dell'Alzheimer, ottenendo prestazioni superiori rispetto ai metodi esistenti anche in scenari con fino all'80% di dati mancanti.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging InitiativeWed, 11 Ma🤖 cs.AI

Unsupervised Domain Adaptation with Target-Only Margin Disparity Discrepancy

Il paper propone un nuovo framework di adattamento di dominio non supervisionato basato sulla discrepanza del margine di disparità (MDD) per migliorare la segmentazione del fegato nelle immagini CBCT interventistiche, sfruttando dati CT annotati e dati CBCT non annotati proprietari per colmare il divario tra le due modalità di imaging.

Gauthier Miralles, Loïc Le Folgoc, Vincent Jugnon, Pietro GoriWed, 11 Ma💻 cs

No Image, No Problem: End-to-End Multi-Task Cardiac Analysis from Undersampled k-Space

Il paper presenta k-MTR, un framework di apprendimento rappresentazionale che bypassa la ricostruzione delle immagini per eseguire direttamente analisi cardiache multi-task (come classificazione, regressione e segmentazione) dai dati k-space sottocampionati, allineandoli a uno spazio latente semantico condiviso con le immagini complete.

Yundi Zhang, Sevgi Gokce Kafali, Niklas Bubeck, Daniel Rueckert, Jiazhen PanWed, 11 Ma🤖 cs.AI

Leveraging whole slide difficulty in Multiple Instance Learning to improve prostate cancer grading

Questo articolo introduce il concetto di "difficoltà della vetrina intera" (WSD), basato sul disaccordo tra patologi esperti e non esperti, e dimostra che integrare questa metrica nell'addestramento di modelli di Multiple Instance Learning migliora significativamente la precisione nella classificazione del cancro alla prostata, in particolare per i gradi Gleason più elevati.

Marie Arrivat, Rémy Peyret, Elsa Angelini, Pietro GoriWed, 11 Ma💻 cs

From Semantics to Pixels: Coarse-to-Fine Masked Autoencoders for Hierarchical Visual Understanding

Il paper propone C2FMAE, un autoencoder mascherato a flusso da grossolano a fine che risolve le limitazioni dei metodi di pre-addestramento visivo auto-supervisionato apprendendo rappresentazioni visive gerarchiche attraverso una decodifica a cascata e un curriculum di mascheramento progressivo su tre livelli di granularità (semantico, istanza e pixel).

Wenzhao Xiang, Yue Wu, Hongyang Yu, Feng Gao, Fan Yang, Xilin ChenWed, 11 Ma🤖 cs.LG

BEACON: Language-Conditioned Navigation Affordance Prediction under Occlusion

Il paper presenta BEACON, un metodo che supera i limiti delle tecniche di navigazione basate su immagini prevedendo mappe di affordanza in vista dall'alto (BEV) per identificare target nascosti da ostacoli, ottenendo un miglioramento significativo rispetto allo stato dell'arte grazie alla fusione di cue spaziali e modelli visione-linguaggio.

Xinyu Gao, Gang Chen, Javier Alonso-MoraWed, 11 Ma🤖 cs.AI

ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare

Il paper presenta ReCoSplat, un modello autoregressivo di Gaussian Splatting che risolve il problema della sintesi di nuove viste online utilizzando un modulo "Render-and-Compare" per compensare gli errori di posa e una strategia di compressione della cache KV per gestire sequenze lunghe, ottenendo prestazioni state-of-the-art su diversi benchmark.

Freeman Cheng, Botao Ye, Xueting Li, Junqi You, Fangneng Zhan, Ming-Hsuan YangWed, 11 Ma💻 cs

From Data Statistics to Feature Geometry: How Correlations Shape Superposition

Questo paper introduce il modello Bag-of-Words Superposition (BOWS) per dimostrare che, nei dati reali, le correlazioni tra le caratteristiche permettono agli interferenze nella sovrapposizione di essere costruttive anziché solo rumorose, generando così strutture semantiche e cicliche che spiegano meglio il comportamento dei modelli linguistici reali rispetto alle teorie basate su caratteristiche non correlate.

Lucas Prieto, Edward Stevinson, Melih Barsbey, Tolga Birdal, Pedro A. M. MedianoWed, 11 Ma🤖 cs.AI

Differentiable Microscopy Designs an All Optical Phase Retrieval Microscope

Questo articolo presenta $\partial\mu$ , un approccio di progettazione ottica basato sull'apprendimento automatico che, attraverso la microscopia differenziabile, supera i metodi tradizionali per la ricostruzione di fase ottica, dimostrando la propria superiorità su diversi dataset biologici e convalidando sperimentalmente un design appreso.

Kithmini Herath, Hasindu Kariyawasam, Ramith Hettiarachchi, Udith Haputhanthri, Dineth Jayakody, Raja N. Ahmad, Azeem Ahmad, Balpreet S. Ahluwalia, Chamira U. S. Edussooriya, Dushan N. WadduwageTue, 10 Ma🔬 physics.optics

Class Overwhelms: Mutual Conditional Blended-Target Domain Adaptation

Il paper propone un metodo di adattamento di dominio per target ibridi che, superando la dipendenza dalle etichette di dominio, allinea reciprocamente le distribuzioni condizionali delle classi e degli stili attraverso un discriminatore guidato dall'incertezza e l'augmentazione delle feature, ottenendo prestazioni superiori allo stato dell'arte specialmente in presenza di spostamento della distribuzione delle etichette.

Pengcheng Xu, Boyu Wang, Charles LingTue, 10 Ma💻 cs

Multi-Scale Distillation for RGB-D Anomaly Detection on the PD-REAL Dataset

Il paper presenta PD-REAL, un nuovo dataset su larga scala per la rilevazione di anomalie in 3D basato su modelli Play-Doh, e propone un innovativo framework di distillazione multiscala teacher-student che sfrutta informazioni RGB-D per superare i limiti degli approcci tradizionali e migliorare l'accuratezza della rilevazione.

Jianjian Qin, Chao Zhang, Chunzhi Gu, Zi Wang, Jun Yu, Yijin Wei, Hui Xiao, Xin YuaTue, 10 Ma💻 cs

Deepfake Generation and Detection: A Benchmark and Survey

Questa rassegna offre una panoramica completa e un benchmark delle tecnologie all'avanguardia per la generazione e il rilevamento dei deepfake, coprendo definizioni, dataset, metriche e le principali sottocategorie come lo scambio e la ricreazione facciale, l'editing degli attributi e la rilevazione di falsificazioni.

Gan Pei, Jiangning Zhang, Menghan Hu, Zhenyu Zhang, Chengjie Wang, Yunsheng Wu, Guangtao Zhai, Jian Yang, Dacheng TaoTue, 10 Ma💻 cs

Goldilocks Test Sets for Face Verification

Gli autori propongono tre nuovi set di test ad alta qualità, denominati Hadrian, Eclipse e ND-Twins, per valutare le debolezze degli algoritmi di riconoscimento facciale su variazioni di attributi e somiglianze tra individui, superando la necessità di degradare artificialmente le immagini per aumentare la difficoltà di valutazione.

Haiyu Wu, Sicong Tian, Aman Bhatta, Jacob Gutierrez, Grace Bezold, Genesis Argueta, Karl Ricanek Jr., Michael C. King, Kevin W. BowyerTue, 10 Ma💻 cs

Exploring Diffusion Models' Corruption Stage in Few-Shot Fine-tuning and Mitigating with Bayesian Neural Networks

Questo paper identifica e modella teoricamente la fase di "corruzione" durante il fine-tuning few-shot dei modelli di diffusione, proponendo l'integrazione di reti neurali bayesiane per mitigare tale fenomeno e migliorare la fedeltà, la qualità e la diversità delle immagini generate senza costi aggiuntivi di inferenza.

Xiaoyu Wu, Jiaru Zhang, Yang Hua, Bohan Lyu, Hao Wang, Tao Song, Haibing GuanTue, 10 Ma🤖 cs.LG

RDM: Recurrent Diffusion Model for Human Motion Generation

Il paper presenta RDM, un nuovo modello ricorrente di diffusione che utilizza flussi di normalizzazione per generare sequenze di movimento umano lunghe e coerenti con il testo, riducendo significativamente i costi computazionali evitando la completa denoising dei frame precedenti.

Mirgahney Mohamed, Harry Jake Cunningham, Marc P. Deisenroth, Lourdes AgapitoTue, 10 Ma💻 cs

Improving Visual Object Tracking through Visual Prompting

Il paper presenta PiVOT, un nuovo meccanismo di prompting visivo che sfrutta il modello fondazionale CLIP per generare e raffinare dinamicamente prompt online, migliorando le prestazioni del tracciamento generico di oggetti sopprimendo efficacemente gli oggetti distraenti.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinTue, 10 Ma💻 cs

ExpGest: Expressive Speaker Generation Using Diffusion Model and Hybrid Audio-Text Guidance

Il paper presenta ExpGest, un nuovo framework basato su modelli di diffusione che genera gesti espressivi a corpo intero sincronizzando informazioni audio e testuali, superando i limiti dei metodi esistenti grazie a un classificatore di emozioni del rumore e a una migliore generalizzazione semantica.

Yongkang Cheng, Mingjiang Liang, Shaoli Huang, Gaoge Han, Jifeng Ning, Wei LiuTue, 10 Ma💻 cs

Autoassociative Learning of Structural Representations for Modeling and Classification in Medical Imaging

Questo studio propone un sistema neurosimbolico che, ricostruendo immagini mediche tramite primitive visive per generare spiegazioni strutturali ad alto livello, supera le architetture deep learning convenzionali nella diagnosi di anomalie istologiche offrendo al contempo maggiore accuratezza e trasparenza.

Zuzanna Buchnajzer, Kacper Dobek, Stanisław Hapke, Daniel Jankowski, Krzysztof KrawiecTue, 10 Ma🤖 cs.LG

Input-Adaptive Generative Dynamics in Diffusion Models

Questo lavoro propone un framework per i modelli di diffusione in cui il processo generativo si adatta dinamicamente alle esigenze di ciascun campione, permettendo di variare la traiettoria di denoising e ridurre il numero di passaggi di campionamento mantenendo la qualità dell'immagine.

Yucheng Xing, Xiaodong Liu, Xin WangTue, 10 Ma🤖 cs.LG

← Precedente Successivo →