cs.CV articoli | Gist.Science

This Looks Distinctly Like That: Grounding Interpretable Recognition in Stiefel Geometry against Neural Collapse

Il paper propone Adaptive Manifold Prototypes (AMP), un framework che utilizza l'ottimizzazione Riemanniana sulla varietà di Stiefel per rappresentare i prototipi di classe come basi ortonormali, prevenendo così il collasso dei prototipi e migliorando significativamente l'interpretabilità e la fedeltà causale nei modelli di riconoscimento.

Junhao Jia, Jiaqi Wang, Yunyou Liu, Haodong Jing, Yueyi Wu, Xian Wu, Yefeng Zheng2026-03-10💻 cs

Rectified flow-based prediction of post-treatment brain MRI from pre-radiotherapy priors for patients with glioma

Questo studio presenta un modello di flusso rettificato basato sull'intelligenza artificiale che genera realisticamente immagini MRI cerebrali post-trattamento per pazienti con glioma, utilizzando dati pre-terapia e mappe di dose radioterapica per ottimizzare la pianificazione terapeutica adattiva.

Selena Huisman, Nordin Belkacemi, Vera Keil, Joost Verhoeff, Szabolcs David2026-03-10💻 cs

Real-Time Drone Detection in Event Cameras via Per-Pixel Frequency Analysis

Il paper presenta DDHF, un metodo in tempo reale per il rilevamento di droni basato su fotocamere a eventi che utilizza la trasformata di Fourier non uniforme per pixel per identificare le firme armoniche dei rotori, superando in accuratezza e latenza i tradizionali approcci basati su deep learning come YOLO.

Michael Bezick, Majid Sahin2026-03-10💻 cs

AULLM++: Structural Reasoning with Large Language Models for Micro-Expression Recognition

Il paper presenta AULLM++, un framework innovativo che sfrutta i Large Language Models per il riconoscimento delle microespressioni, integrando evidenze visive multigranulari e relazioni strutturali tra le Action Units attraverso un processo di ragionamento a tre stadi per superare i limiti dei metodi precedenti e ottenere prestazioni all'avanguardia.

Zhishu Liu, Kaishen Yuan, Bo Zhao, Hui Ma, Zitong Yu2026-03-10💻 cs

StructBiHOI: Structured Articulation Modeling for Long--Horizon Bimanual Hand--Object Interaction Generation

Il paper propone StructBiHOI, un framework che utilizza un modello gerarchico basato su VAE e un denoiser Mamba per generare interazioni bimanuali a lungo termine tra mani e oggetti, garantendo stabilità temporale, plausibilità fisica e coordinazione articolata.

Zhi Wang, Liu Liu, Ruonan Liu, Dan Guo, Meng Wang2026-03-10💻 cs

SPIRAL: A Closed-Loop Framework for Self-Improving Action World Models via Reflective Planning Agents

Il paper introduce SPIRAL, un framework a ciclo chiuso che utilizza agenti di pianificazione e riflessione per migliorare la generazione video a lungo termine attraverso un processo iterativo di pianificazione, azione e valutazione, superando i limiti dei modelli open-loop esistenti.

Yu Yang, Yue Liao, Jianbiao Mei, Baisen Wang, Xuemeng Yang, Licheng Wen, Jiangning Zhang, Xiangtai Li, Hanlin Chen, Botian Shi, Yong Liu, Shuicheng Yan, Gim Hee Lee2026-03-10💻 cs

Grow, Assess, Compress: Adaptive Backbone Scaling for Memory-Efficient Class Incremental Learning

Il paper propone GRACE, un nuovo framework dinamico per l'apprendimento incrementale di classe che bilancia plasticità e stabilità attraverso una strategia ciclica di espansione, valutazione della saturazione e compressione, ottenendo prestazioni all'avanguardia riducendo al contempo l'ingombro di memoria fino al 73%.

Adrian Garcia-Castañeda, Jon Irureta, Jon Imaz, Aizea Lojo2026-03-10🤖 cs.LG

Information Maximization for Long-Tailed Semi-Supervised Domain Generalization

Il paper propone IMaX, un metodo semplice ed efficace basato sul principio di massimizzazione dell'informazione reciproca che, integrando un obiettivo entropico $\alpha$ , risolve il problema delle distribuzioni di classe a coda lunga nella generalizzazione di dominio semi-supervisionata, migliorando le prestazioni degli stati dell'arte su diverse modalità visive.

Leo Fillioux, Omprakash Chakraborty, Quentin Gopée, Pierre Marza, Paul-Henry Cournède, Stergios Christodoulidis, Maria Vakalopoulou, Ismail Ben Ayed, Jose Dolz2026-03-10💻 cs

Can Vision-Language Models Solve the Shell Game?

Il paper introduce VET-Bench, un test diagnostico che rivela l'incapacità degli attuali modelli visione-linguaggio di tracciare oggetti indistinguibili, proponendo e validando il metodo SGCoT che supera il 90% di accuratezza generando esplicitamente le traiettorie degli oggetti come stati intermedi.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

Alfa: Attentive Low-Rank Filter Adaptation for Structure-Aware Cross-Domain Personalized Gaze Estimation

Il paper presenta Alfa, un metodo di adattamento a basso rango che utilizza decomposizione in valori singolari e meccanismi di attenzione per ri-pesare i filtri pre-addestrati, consentendo una personalizzazione efficiente e precisa dell'estimazione dello sguardo su dispositivi con risorse limitate.

He-Yen Hsieh, Wei-Te Mark Ting, H. T. Kung2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Il paper propone X-AVDT, un rilevatore di deepfake robusto che sfrutta i segnali di allineamento audio-visivo interni ai generatori ottenuti tramite inversione DDIM, e introduce il nuovo dataset multimodale MMDF per valutare le prestazioni su diverse tecnologie di sintesi.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

Il paper propone la Visual Self-Fulfilling Alignment (VSFA), un metodo di allineamento senza etichette che utilizza immagini legate a minacce per addestrare i modelli linguistici visivi a sviluppare automaticamente una persona orientata alla sicurezza, riducendo così le risposte dannose senza compromettere le capacità generali.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

Spherical-GOF: Geometry-Aware Panoramic Gaussian Opacity Fields for 3D Scene Reconstruction

Il paper presenta Spherical-GOF, un nuovo framework di rendering panoramico basato su Gaussian Opacity Fields che, campionando i raggi direttamente sulla sfera unitaria e introducendo regole di culling e filtraggio specifiche, risolve le distorsioni geometriche tipiche delle estensioni panoramiche della 3DGS, ottenendo risultati superiori in termini di coerenza geometrica e qualità fotometrica su dataset sintetici e reali.

Zhe Yang, Guoqiang Zhao, Sheng Wu, Kai Luo, Kailun Yang2026-03-10💻 cs

OccTrack360: 4D Panoptic Occupancy Tracking from Surround-View Fisheye Cameras

Il paper presenta OccTrack360, un nuovo benchmark per il tracciamento 4D dell'occupazione panottica da telecamere fisheye surround, accompagnato da un metodo di base chiamato FoSOcc che affronta le sfide della proiezione sferica distorta e della localizzazione nei voxel.

Yongzhi Lin, Kai Luo, Yuanfan Zheng, Hao Shi, Mengfei Duan, Yang Liu, Kailun Yang2026-03-10💻 cs

Interactive World Simulator for Robot Policy Training and Evaluation

Il paper presenta l'Interactive World Simulator, un framework basato su modelli di consistenza che genera simulazioni interattive veloci e fisicamente coerenti, permettendo l'addestramento e la valutazione di politiche robotiche scalabili con prestazioni nel mondo reale comparabili a quelle ottenute con dati reali.

Yixuan Wang, Rhythm Syed, Fangyu Wu, Mengchao Zhang, Aykut Onol, Jose Barreiros, Hooshang Nayyeri, Tony Dear, Huan Zhang, Yunzhu Li2026-03-10🤖 cs.LG

Online Sparse Synthetic Aperture Radar Imaging

Il documento propone l'algoritmo Online FISTA, un metodo di ricostruzione online per la Radar ad Apertura Sintetica (SAR) che riduce drasticamente i requisiti di memoria e calcolo aggiornando ricorsivamente le matrici di archiviazione, rendendo così possibili compiti complessi come il riconoscimento automatico di bersagli (ATR) in tempo reale su droni autonomi.

Conor Flynn, Radoslav Ivanov, Birsen Yazici2026-03-10💻 cs

DualFlexKAN: Dual-stage Kolmogorov-Arnold Networks with Independent Function Control

Il documento presenta il DualFlexKAN, un'architettura di rete neurale flessibile che supera i limiti dei KAN tradizionali attraverso un meccanismo a due stadi con funzioni indipendenti, offrendo un'efficienza parametrica superiore e una maggiore adattabilità per compiti scientifici e di regressione.

Andrés Ortiz, Nicolás J. Gallego-Molina, Carmen Jiménez-Mesa, Juan M. Górriz, Javier Ramírez2026-03-10🤖 cs.LG

PRISM: Streaming Human Motion Generation with Per-Joint Latent Decomposition

Il paper presenta PRISM, un modello fondazionale per la generazione di motioni umane in streaming che risolve le limitazioni degli approcci esistenti grazie a uno spazio latente fattorizzato per giunto e un'iniezione di condizione priva di rumore, unificando così compiti come la generazione da testo, condizionata alla posa e sequenziale in un'unica architettura che raggiunge lo stato dell'arte.

Zeyu Ling, Qing Shuai, Teng Zhang, Shiyang Li, Bo Han, Changqing Zou2026-03-10💻 cs

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Il paper propone un framework teacher-student con supervisione debole e raffinamento progressivo delle pseudo-mask per la segmentazione delle ghiandole nella istopatologia del cancro colorettale, ottenendo risultati robusti e generalizzabili con un'efficienza di annotazione superiore rispetto ai metodi tradizionali.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

Retrieval-Augmented Gaussian Avatars: Improving Expression Generalization

Il paper introduce RAF (Retrieval-Augmented Faces), un metodo di augmentation durante l'addestramento che migliora la generalizzazione delle espressioni per avatar facciali privi di template, sostituendo le feature del soggetto con espressioni recuperate da un archivio non etichettato per aumentare la diversità dei dati e la robustezza senza richiedere annotazioni aggiuntive.

Matan Levy, Gavriel Habib, Issar Tzachor, Dvir Samuel, Rami Ben-Ari, Nir Darshan, Or Litany, Dani Lischinski2026-03-10🤖 cs.LG

← Precedente Successivo →