TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

Il paper propone TokenCLIP, un framework di apprendimento adattivo a livello di token che risolve i limiti dell'allineamento indifferenziato nelle rilevazioni di anomalie zero-shot mappando dinamicamente ogni token visivo su sottospazi testuali ortogonali specifici tramite un problema di trasporto ottimo, migliorando così la capacità del modello di catturare semantica di anomalie fine-grained.

Qihang Zhou, Binbin Gao, Guansong Pang + 3 more2026-03-02💻 cs

Enhancing CLIP Robustness via Cross-Modality Alignment

Il paper propone COLA, un framework basato sul trasporto ottimo e privo di addestramento che migliora la robustezza dei modelli CLIP agli attacchi avversari allineando le rappresentazioni visive e testuali attraverso una proiezione sottomatrice e una regolarizzazione strutturale, ottenendo significativi guadagni di accuratezza su 14 benchmark senza compromettere le prestazioni su campioni puliti.

Xingyu Zhu, Beier Zhu, Shuo Wang + 2 more2026-03-02💻 cs

Attentive Feature Aggregation or: How Policies Learn to Stop Worrying about Robustness and Attend to Task-Relevant Visual Cues

Questo lavoro propone l'Aggregazione Attenta delle Caratteristiche (AFA), un meccanismo di pooling leggero che permette alle politiche visuomotorie di ignorare le distrazioni visive e concentrarsi sui segnali rilevanti per il compito, migliorando significativamente la robustezza rispetto ai cambiamenti visivi senza richiedere costose aumentazioni dei dati o riaddestramento dei modelli pre-addestrati.

Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier + 4 more2026-03-02💻 cs

General vs Domain-Specific CNNs: Understanding Pretraining Effects on Brain MRI Tumor Classification

Questo studio dimostra che, per la classificazione dei tumori cerebrali in MRI con dati limitati, le architetture CNN pre-addestrate su dataset generali di grandi dimensioni (in particolare ConvNeXt-Tiny) superano le prestazioni di un modello pre-addestrato su dati medici specifici (RadImageNet DenseNet121), sfatando il mito che il pre-addestramento dominio-specifico garantisca sempre risultati migliori.

Helia Abedini, Saba Rahimi, Reza Vaziri2026-03-02🤖 cs.AI

SocialNav: Training Human-Inspired Foundation Model for Socially-Aware Embodied Navigation

Il paper presenta SocialNav, un modello fondazionale per la navigazione embodied socialmente consapevole che, grazie a un nuovo dataset su larga scala e a una pipeline di addestramento ibrida che combina apprendimento per imitazione con un innovativo framework di reinforcement learning (SAFE-GRPO), supera significativamente gli stati dell'arte sia in termini di successo nella navigazione che di conformità alle norme sociali.

Ziyi Chen, Yingnan Guo, Zedong Chu + 14 more2026-03-02🤖 cs.AI

TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification

Il paper propone TARDis, un innovativo framework consapevole della fisica che, disaccoppiando le componenti anatomiche statiche da quelle emodinamiche dinamiche, risolve efficacemente il problema della segmentazione e classificazione dei tumori in scansioni TC con fasi di contrasto incomplete, garantendo prestazioni diagnostiche robuste anche in scenari di dati estremamente scarsi.

Zishuo Wan, Qinqin Kang, Na Li + 6 more2026-03-02💻 cs

ColaVLA: Leveraging Cognitive Latent Reasoning for Hierarchical Parallel Trajectory Planning in Autonomous Driving

Il paper presenta ColaVLA, un framework unificato visione-linguaggio-azione che supera le limitazioni dei pianificatori basati su VLM trasferendo il ragionamento cognitivo in uno spazio latente compatto e utilizzando un decoder gerarchico parallelo per generare traiettorie sicure ed efficienti in tempo reale, ottenendo risultati state-of-the-art sul benchmark nuScenes.

Qihang Peng, Xuesong Chen, Chenye Yang + 2 more2026-03-02💻 cs

CPiRi: Channel Permutation-Invariant Relational Interaction for Multivariate Time Series Forecasting

Il paper propone CPiRi, un framework innovativo per la previsione di serie temporali multivariata che, combinando un'architettura di decoupling spaziotemporale con una strategia di regolarizzazione per invarianza alla permutazione, supera i limiti dei modelli dipendenti o indipendenti dai canali garantendo prestazioni all'avanguardia, efficienza e una forte capacità di generalizzazione anche in scenari con riordinamento o aggiunta di canali senza necessità di riaddestramento.

Jiyuan Xu, Wenyu Zhang, Xin Jing + 3 more2026-03-02💻 cs