Automating Deception: Scalable Multi-Turn LLM Jailbreaks

Questo articolo presenta una pipeline automatizzata per generare dataset su larga scala di jailbreak conversazionali basati sul principio psicologico del "piede nella porta", rivelando attraverso un benchmark di 1.500 scenari che la robustezza dei modelli LLM varia drasticamente, con la famiglia GPT particolarmente vulnerabile al contesto conversazionale mentre Gemini 2.5 Flash dimostra un'eccezionale resilienza.

Adarsh Kumarappan, Ananya Mujoo2026-03-10🤖 cs.LG

Crowdsourcing the Frontier: Advancing Hybrid Physics-ML Climate Simulation via a $50,000 Kaggle Competition

Questo studio dimostra che la soluzione di problemi offline tramite un concorso Kaggle ha permesso di sviluppare parametrizzazioni ibride fisica-ML stabili e all'avanguardia per le simulazioni climatiche, superando le tradizionali sfide di instabilità online.

Jerry Lin, Zeyuan Hu, Tom Beucler, Katherine Frields, Hannah Christensen, Walter Hannah, Helge Heuer, Peter Ukkonnen, Laura A. Mansfield, Tian Zheng, Liran Peng, Ritwik Gupta, Pierre Gentine, Yusef Al-Naher, Mingjiang Duan, Kyo Hattori, Weiliang Ji, Chunhan Li, Kippei Matsuda, Naoki Murakami, Shlomo Ron, Marec Serlin, Hongjian Song, Yuma Tanabe, Daisuke Yamamoto, Jianyao Zhou, Mike Pritchard2026-03-10🤖 cs.LG

ForamDeepSlice: A High-Accuracy Deep Learning Framework for Foraminifera Species Classification from 2D Micro-CT Slices

Questo studio presenta ForamDeepSlice, un framework di deep learning ad alta precisione che utilizza un ensemble di reti neurali convoluzionali per classificare automaticamente le specie di foraminiferi da fette 2D micro-CT, raggiungendo un'accuratezza del 95,64% e fornendo una dashboard interattiva per l'identificazione micropaleontologica assistita dall'IA.

Abdelghafour Halimi, Ali Alibrahim, Didier Barradas-Bautista, Ronell Sicat, Abdulkader M. Afifi2026-03-10🤖 cs.LG

Evolving Diffusion and Flow Matching Policies for Online Reinforcement Learning

Il paper presenta GoRL, un framework che risolve il compromesso tra stabilità di ottimizzazione e capacità rappresentativa nell'apprendimento per rinforzo online, decoupling l'ottimizzazione della politica da uno spazio latente trattabile e la generazione delle azioni in uno spazio espressivo, ottenendo prestazioni superiori su compiti di controllo continuo.

Chubin Zhang, Zhenglin Wan, Feng Chen, Fuchao Yang, Lang Feng, Yaxin Zhou, Xingrui Yu, Yang You, Ivor Tsang, Bo An2026-03-10🤖 cs.LG

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainability

Il documento presenta la Sparse Isotonic Shapley Regression (SISR), un nuovo framework unificato per l'IA spiegabile che supera i limiti dell'additività e della densità dei valori Shapley tradizionali, apprendendo simultaneamente una trasformazione monotona non lineare e imponendo vincoli di sparsità per fornire attribuzioni robuste, efficienti e teoricamente fondate in scenari complessi.

Jialai She2026-03-10🤖 cs.LG

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

Il paper introduce Re-Depth Anything, un framework di auto-supervisione a test-time che migliora l'estimazione della profondità monoculari fondendo modelli fondazionali con prior di diffusione su larga scala per affinare le mappe di profondità tramite ricreazione dell'illuminazione e Score Distillation Sampling, ottenendo risultati all'avanguardia senza richiedere etichette.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

Latent Sculpting for Zero-Shot Generalization: A Manifold Learning Approach to Out-of-Distribution Anomaly Detection

Il paper propone "Latent Sculpting", un approccio di apprendimento gerarchico che combina un encoder Transformer con una perdita di scultura latente binaria e un flusso autoregressivo mascherato per modellare esplicitamente la struttura geometrica dei dati, permettendo così di rilevare con successo anomalie fuori distribuzione e attacchi zero-day nel traffico di rete senza necessità di esempi di addestramento specifici.

Rajeeb Thapa Chhetri, Saurab Thapa, Avinash Kumar, Zhixiong Chen2026-03-10🤖 cs.LG