cs.LG articoli | Gist.Science

Beyond Benchmarks: Dynamic, Automatic And Systematic Red-Teaming Agents For Trustworthy Medical Language Models

Questo studio introduce un framework di "red-teaming" dinamico, automatico e sistematico (DAS) che, stressando i modelli linguistici medici su assi di sicurezza critici, rivela un profondo divario tra le alte prestazioni sui benchmark statici e la bassa affidabilità in scenari reali, evidenziando come i punteggi elevati possano riflettere una memorizzazione superficiale piuttosto che una vera competenza clinica.

Jiazhen Pan (Cherise), Bailiang Jian (Cherise), Paul Hager (Cherise), Yundi Zhang (Cherise), Che Liu (Cherise), Friedrike Jungmann (Cherise), Hongwei Bran Li (Cherise), Chenyu You (Cherise), Junde Wu (Cherise), Jiayuan Zhu (Cherise), Fenglin Liu (Cherise), Yuyuan Liu (Cherise), Niklas Bubeck (Cherise), Christian Wachinger (Cherise), Chen (Cherise), Chen (Cherise), Zhenyu Gong, Cheng Ouyang, Georgios Kaissis, Benedikt Wiestler, Daniel Rueckert2026-03-10🤖 cs.LG

CauKer: Classification Time Series Foundation Models Can Be Pretrained on Synthetic Data

Il paper presenta CauKer, un algoritmo innovativo che genera serie temporali sintetiche causalmente coerenti per pre-addestrare in modo efficiente modelli foundation per la classificazione, dimostrando leggi di scalabilità superiori rispetto ai dataset reali.

Shifeng Xie, Vasilii Feofanov, Ambroise Odonnat, Lei Zan, Marius Alonso, Jianfeng Zhang, Themis Palpanas, Lujia Pan, Keli Zhang, Ievgen Redko2026-03-10🤖 cs.LG

GraphProp: Training the Graph Foundation Models using Graph Properties

Il paper presenta GraphProp, un metodo per addestrare modelli fondazionali su grafi che migliora la generalizzazione cross-dominio attraverso due fasi: prima l'apprendimento di rappresentazioni strutturali basate su invarianti grafici, poi l'integrazione di attributi specifici del dominio per ottenere prestazioni superiori nelle attività di classificazione, specialmente in contesti privi di attributi nodali.

Ziheng Sun, Qi Feng, Lehao Lin, Chris Ding, Jicong Fan2026-03-10🤖 cs.LG

Time-Scale Coupling Between States and Parameters in Recurrent Neural Networks

Questo lavoro dimostra che i meccanismi di gating nelle reti neurali ricorrenti agiscono come precondizionatori adattivi basati sui dati, accoppiando le scale temporali dello stato con la dinamica dei parametri per generare tassi di apprendimento efficaci dipendenti dal ritardo e dall'orientamento, spiegando così la robusta trainabilità di tali architetture.

Lorenzo Livi2026-03-10🤖 cs.LG

ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals

Il paper presenta ECHO, un modello fondazionale innovativo che integra un'architettura a bande divise e embedding posizionali frequenziali per elaborare segnali macchina di lunghezza variabile e a diversi tassi di campionamento, ottenendo prestazioni all'avanguardia nell'individuazione di anomalie e nella classificazione dei guasti.

Yucong Zhang, Juan Liu, Ming Li2026-03-10🤖 cs.LG

Constraint Learning in Multi-Agent Dynamic Games from Demonstrations of Local Nash Interactions

Questo articolo presenta un algoritmo basato su giochi dinamici inversi che, sfruttando programmi lineari interi-misti per codificare le condizioni KKT, apprende vincoli parametrici da dimostrazioni di interazioni multi-agente per garantire la sicurezza e pianificare traiettorie robuste.

Zhouyu Zhang, Chih-Yuan Chiu, Glen Chou2026-03-10🤖 cs.LG

CbLDM: A Diffusion Model for recovering nanostructure from atomic pair distribution function

Questo studio presenta il CbLDM, un modello di diffusione latente basato su condizioni che risolve il problema inverso della nanostruttura recuperando nanoparticelle metalliche monometalliche dalla loro funzione di distribuzione delle coppie (PDF) utilizzando matrici di Laplace per garantire stabilità e risultati fisicamente significativi.

Jiarui Cao, Zhiyang Zhang, Heming Wang, Jun Xu, Ling Lan, Simon J. L. Billinge, Ran Gu2026-03-10🔬 cond-mat.mtrl-sci

Entropy-Driven Curriculum for Multi-Task Training in Human Mobility Prediction

Questo articolo presenta un framework di addestramento unificato che combina un curriculum guidato dall'entropia e l'apprendimento multi-task per migliorare la previsione della mobilità umana, ottenendo prestazioni all'avanguardia e una convergenza più rapida rispetto ai metodi esistenti.

Tianye Fang, Xuanshu Luo, Martin Werner2026-03-10🤖 cs.LG

Synthetic data for ratemaking: imputation-based methods vs adversarial networks and autoencoders

Questo studio dimostra che i metodi di imputazione basati su MICE offrono un'alternativa efficace e più semplice da implementare rispetto alle reti avversarie e agli autoencoder per la generazione di dati sintetici nella taratura assicurativa, preservando fedelmente le distribuzioni originali e migliorando le prestazioni dei modelli GLM.

Yevhen Havrylenko, Meelis Käärik, Artur Tuttar2026-03-10🤖 cs.LG

Faster Gradient Methods for Highly-Smooth Stochastic Bilevel Optimization

Questo articolo propone la classe di metodi F²SA-p, che utilizza differenze finite di ordine p per approssimare il gradiente iperbolico nell'ottimizzazione bilevel stocastica, migliorando il limite superiore di complessità fino a $\tilde{\mathcal{O}}(p \epsilon^{-4-p/2})$ per problemi altamente lisci e dimostrando la quasi-ottimalità di tale approccio rispetto al limite inferiore $\Omega(\epsilon^{-4})$ .

Lesi Chen, Junru Li, El Mahdi Chayti, Jingzhao Zhang2026-03-10🤖 cs.LG

Behavioral Inference at Scale: The Fundamental Asymmetry Between Motivations and Belief Systems

Lo studio dimostra che, sebbene le motivazioni degli agenti LLM siano inferibili con quasi assoluta precisione, i sistemi di credenze presentano un limite fondamentale di asimmetria informativa che ne impedisce l'identificazione accurata, indipendentemente dall'architettura o dalla quantità di dati.

Jason Starace, Terence Soule2026-03-10🤖 cs.LG

Synthetic Homes: An Accessible Multimodal Pipeline for Producing Residential Building Data with Generative AI

Questo lavoro presenta un framework modulare multimodale basato sull'intelligenza artificiale generativa per produrre dati sintetici realistici sugli edifici residenziali a partire da immagini e informazioni pubbliche, riducendo la dipendenza da fonti dati costose o riservate e facilitando la ricerca sulla simulazione energetica.

Jackson Eshbaugh, Chetan Tiwari, Jorge Silveyra2026-03-10🤖 cs.LG

Physics-Aware Neural Operators for Direct Inversion in 3D Photoacoustic Tomography

Il paper introduce PANO, un operatore neurale fisico-consapevole che esegue un'inversione diretta in un singolo passaggio per la tomografia fotoacustica 3D, superando i metodi tradizionali e permettendo ricostruzioni di alta qualità da acquisizioni sparse in tempo reale.

Jiayun Wang, Yousuf Aborahama, Arya Khokhar, Yang Zhang, Chuwei Wang, Karteekeya Sastry, Julius Berner, Yilin Luo, Boris Bonev, Zongyi Li, Kamyar Azizzadenesheli, Lihong V. Wang, Anima Anandkumar2026-03-10🤖 cs.LG

Fast reconstruction of degenerate populations of conductance-based neuron models from spike times

Questo lavoro presenta un metodo che combina deep learning e le conduttanze di ingresso dinamiche (DIC) per ricostruire rapidamente e in modo scalabile popolazioni degeneri di modelli neuronali basati su conduttanze partendo esclusivamente dai tempi di picco, superando la sfida di inferire parametri biofisici da dati sperimentali limitati.

Julien Brandoit, Damien Ernst, Guillaume Drion, Arthur Fyon2026-03-10🤖 cs.LG

MICA: Multi-Agent Industrial Coordination Assistant

Il paper presenta MICA, un assistente di coordinamento industriale multi-agente basato su percezione e interazione vocale che, grazie a un meccanismo di fusione adattiva dei passaggi e a un controllo di sicurezza, garantisce assistenza affidabile, privata e funzionante offline per ambienti di fabbrica dinamici.

Di Wen, Kunyu Peng, Junwei Zheng, Yufan Chen, Yitian Shi, Jiale Wei, Ruiping Liu, Kailun Yang, Rainer Stiefelhagen2026-03-10🤖 cs.LG

ORIC: Benchmarking Object Recognition under Contextual Incongruity in Large Vision-Language Models

Il paper introduce ORIC, un framework e un benchmark per valutare come l'incongruenza contestuale comprometta il riconoscimento degli oggetti nei Large Vision-Language Models, dimostrando che l'addestramento su dati generati da questo metodo migliora significativamente l'affidabilità e riduce le allucinazioni dei modelli.

Zhaoyang Li, Zhan Ling, Yuchen Zhou, Litian Gong, Erdem Bıyık, Hao Su2026-03-10🤖 cs.LG

ORN-CBF: Learning Observation-conditioned Residual Neural Control Barrier Functions via Hypernetworks

Questo lavoro propone l'ORN-CBF, un metodo che utilizza iperreti e l'analisi di raggiungibilità di Hamilton-Jacobi per apprendere funzioni di barriera neurale condizionate dalle osservazioni, garantendo filtri di sicurezza rigorosi e migliorando le prestazioni di robot autonomi in ambienti parzialmente osservabili rispetto alle tecniche esistenti.

Bojan Derajic, Sebastian Bernhard, Wolfgang Hönig2026-03-10🤖 cs.LG

Empirical PAC-Bayes bounds for Markov chains

Questo articolo presenta il primo limite PAC-Bayes completamente empirico per le catene di Markov, ottenibile stimando sperimentalmente il gap spettrale pseudo quando lo spazio degli stati è finito.

Vahe Karagulyan, Pierre Alquier2026-03-10🤖 cs.LG

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Lo studio dimostra che i monitor lineari per i modelli linguistici sono fragili e dipendono fortemente da evidenze testuali superficiali, poiché la loro efficacia crolla drasticamente quando tali indizi vengono rimossi o quando i modelli generano output privi di verbalizzazioni esplicite del comportamento target.

Gerard Boxo, Aman Neelappa, Shivam Raval2026-03-10🤖 cs.LG

AEGIS: Authentic Edge Growth In Sparsity for Link Prediction in Edge-Sparse Bipartite Knowledge Graphs

Il paper introduce AEGIS, un framework di aumento dei dati basato sulla ricampionatura degli archi esistenti che, preservando l'autenticità dei nodi e sfruttando l'arricchimento semantico, migliora le prestazioni di previsione dei collegamenti in grafi bipartiti sparsi senza generare endpoint fittizi.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10🤖 cs.LG

← Precedente Successivo →