cs.LG articoli | Gist.Science

Entropic Mirror Descent for Linear Systems: Polyak's Stepsize and Implicit Bias

Questo articolo introduce una variante del passo di Polyak per l'uso della discesa dello specchio entropica nella risoluzione di sistemi lineari, superando le sfide legate al dominio illimitato e ottenendo risultati di convergenza sublineare e lineare, oltre a rafforzare i limiti sul bias implicito nella norma $\ell_1$ e generalizzare i risultati a funzioni convesse lisce arbitrarie.

Yura Malitsky, Alexander Posch2026-03-09🤖 cs.LG

Maximizing Asynchronicity in Event-based Neural Networks

Il paper presenta EVA, un nuovo framework di apprendimento asincrono che, ispirandosi alla modellazione linguistica, genera caratteristiche evento-per-evento altamente espressive superando i metodi precedenti sia in compiti di riconoscimento che di rilevamento.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Il paper introduce ESGenius, il primo benchmark completo per valutare le capacità dei modelli linguistici di grandi dimensioni nelle conoscenze ESG e sulla sostenibilità, dimostrando che l'uso della generazione aumentata dal recupero (RAG) su un corpus curato di fonti autorevoli colma significativamente il divario di conoscenza rispetto alle prestazioni zero-shot.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

ContextBench: Modifying Contexts for Targeted Latent Activation

Il paper introduce ContextBench, un benchmark per valutare metodi di modifica del contesto volti ad attivare specifiche caratteristiche latenti nei modelli linguistici, e dimostra che varianti avanzate dell'ottimizzazione evolutiva dei prompt riescono a bilanciare efficacemente forza di attivazione e fluidità linguistica.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Il paper presenta Sysformer, un approccio innovativo che protegge i grandi modelli linguistici (LLM) congelati adattando dinamicamente i prompt di sistema tramite un modello trasformatore, migliorando significativamente la robustezza contro gli attacchi dannosi e la conformità alle richieste sicure senza richiedere un costoso riaddestramento dei parametri del modello.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

SPoT: Subpixel Placement of Tokens in Vision Transformers

Il paper introduce SPoT, una nuova strategia di tokenizzazione che posiziona i token in modo continuo all'interno delle immagini, superando i limiti delle griglie discrete per abilitare architetture Vision Transformer più efficienti, flessibili e interpretabili.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

Quantifying Cross-Attention Interaction in Transformers for Interpreting TCR-pMHC Binding

Il paper propone QCAI, un nuovo metodo post-hoc per interpretare i meccanismi di cross-attention nei transformer encoder-decoder applicati al legame TCR-pMHC, che supera le limitazioni delle tecniche esistenti e raggiunge prestazioni all'avanguardia sia nell'interpretabilità che nella precisione predittiva grazie alla valutazione sul benchmark TCR-XAI.

Jiarui Li, Zixiang Yin, Haley Smith, Zhengming Ding, Samuel J. Landry, Ramgopal R. Mettu2026-03-09🤖 cs.LG

Temporal Misalignment Attacks against Multimodal Perception in Autonomous Driving

Il paper introduce DejaVu, un attacco che sfrutta le vulnerabilità di sincronizzazione temporale nelle reti veicolari per creare disallineamenti tra i flussi di dati di telecamera e LiDAR, compromettendo drasticamente le prestazioni dei sistemi di percezione multimodale per la guida autonoma e causando gravi conseguenze come collisioni e frenate fantasma.

Md Hasan Shahriar, Md Mohaimin Al Barat, Harshavardhan Sundar, Ning Zhang, Naren Ramakrishnan, Y. Thomas Hou, Wenjing Lou2026-03-09🤖 cs.LG

Diverse and Adaptive Behavior Curriculum for Autonomous Driving: A Student-Teacher Framework with Multi-Agent RL

Questo lavoro propone un nuovo framework studente-insegnante basato sull'apprendimento per rinforzo multi-agente che genera automaticamente un curriculum di comportamenti di traffico diversificati e adattivi, permettendo a un agente di guida autonoma di superare le limitazioni degli scenari basati su regole e di acquisire una guida più robusta, assertiva e bilanciata.

Ahmed Abouelazm, Johannes Ratz, Philip Schörner, J. Marius Zöllner2026-03-09🤖 cs.LG

Merging Memory and Space: A State Space Neural Operator

Il paper propone l'Operatore a Spazio di Stato (SS-NO), un'architettura compatta ed efficiente che integra modelli a spazio di stato strutturati con meccanismi di smorzamento adattivo e modulazione di frequenza apprendibile per risolvere con prestazioni all'avanguardia equazioni differenziali alle derivate parziali dipendenti dal tempo.

Nodens Koren, Samuel Lanthaler2026-03-09🤖 cs.LG

Multivariate Fields of Experts for Convergent Image Reconstruction

Il paper introduce i "Multivariate Fields of Experts", un nuovo framework per l'apprendimento di priori delle immagini che, grazie a funzioni potenziali multivariate basate su involucri di Moreau, supera i modelli univariati e si avvicina alle prestazioni dei metodi deep learning offrendo al contempo maggiore velocità, efficienza dei parametri, interpretabilità e garanzie teoriche di convergenza per vari problemi inversi di ricostruzione.

Stanislas Ducotterd, Michael Unser2026-03-09🤖 cs.LG

Characterizing Evolution in Expectation-Maximization Estimates for Overspecified Mixed Linear Regression

Questo articolo analizza teoricamente il comportamento dell'algoritmo Expectation-Maximization nella regressione lineare mista sovrastimata, dimostrando che la velocità di convergenza e l'accuratezza statistica dipendono criticamente dall'equilibrio iniziale dei pesi di miscela, con risultati lineari e di precisione $O((d/n)^{1/2})$ per configurazioni sbilanciate e risultati sublineari di precisione $O((d/n)^{1/4})$ per configurazioni bilanciate.

Zhankun Luo, Abolfazl Hashemi2026-03-09🤖 cs.LG

Kernel VICReg for Self-Supervised Learning in Reproducing Kernel Hilbert Space

Il paper propone Kernel VICReg, un nuovo framework di apprendimento auto-supervisionato che trasporta l'obiettivo VICReg in uno Spazio di Hilbert a Nucleo Riproducente (RKHS) per catturare dipendenze non lineari e migliorare le prestazioni su dati con strutture complesse o campioni limitati, superando i limiti dei metodi basati su spazio euclideo.

M. Hadi Sepanj, Benyamin Ghojogh, Saed Moradi, Paul Fieguth2026-03-09🤖 cs.LG

One Model for All Tasks: Leveraging Efficient World Models in Multi-Task Planning

Il paper presenta ScaleZero, un modello unico basato su un'architettura Mixture-of-Experts e una strategia di scalatura dinamica dei parametri (DPS) che risolve i conflitti di gradino e ottimizza l'efficienza dei campioni nel pianificare compiti eterogenei, raggiungendo prestazioni paragonabili ad agenti specializzati con meno interazioni ambientali.

Yuan Pu, Yazhe Niu, Jia Tang, Junyu Xiong, Shuai Hu, Hongsheng Li2026-03-09🤖 cs.LG

Quantum parameter estimation with uncertainty quantification from continuous measurement data using neural network ensembles

Il documento dimostra che gli ensemble di reti neurali profonde permettono una stima accurata dei parametri quantistici con quantificazione dell'incertezza e rilevamento di derive nei dati sperimentali, offrendo tempi di inferenza significativamente più rapidi rispetto ai metodi bayesiani tradizionali.

Amanuel Anteneh2026-03-09⚛️ quant-ph

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

Il paper introduce "Answer-Then-Check", un nuovo approccio di allineamento alla sicurezza che addestra i modelli linguistici a generare una risposta interna e valutarne la sicurezza prima di rispondere all'utente, migliorando così la robustezza contro gli attacchi jailbreak e riducendo i falsi rifiuti senza compromettere le capacità di ragionamento generale.

Chentao Cao, Xiaojun Xu, Bo Han, Hang Li2026-03-09🤖 cs.AI

VEGA: Electric Vehicle Navigation Agent via Physics-Informed Neural Operator and Proximal Policy Optimization

VEGA è un sistema di navigazione per veicoli elettrici che combina un operatore neurale informato dalla fisica per la stima dei parametri del veicolo e un agente di apprendimento per rinforzo basato su PPO per pianificare percorsi e fermate di ricarica, dimostrando un'efficienza superiore e una rapida generalizzazione su reti stradali globali.

Hansol Lim, Minhyeok Im, Jonathan Boyack, Jee Won Lee, Jongseong Brad Choi2026-03-09🤖 cs.LG

Spectral/Spatial Tensor Atomic Cluster Expansion with Universal Embeddings in Cartesian Space

Il paper introduce il Tensor Atomic Cluster Expansion (TACE), un modello di apprendimento automatico equivariante che unifica la modellazione scalare e tensoriale nello spazio cartesiano mediante tensori cartesiani irriducibili, offrendo un'alternativa efficiente e priva di accoppiamenti di Clebsch-Gordan che garantisce accuratezza, stabilità ed efficienza su una vasta gamma di sistemi, dalle molecole finite ai materiali estesi, inclusi dati reattivi e multi-fiducia.

Zemin Xu, Wenbo Xie, P. Hu2026-03-09🔬 cond-mat.mtrl-sci

C^2Prompt: Class-aware Client Knowledge Interaction for Federated Continual Learning

Il paper propone C²Prompt, un metodo innovativo per l'apprendimento continuo federato che supera le limitazioni delle tecniche basate su prompt esistenti migliorando la coerenza della conoscenza a livello di classe attraverso un meccanismo di compensazione della distribuzione locale e uno schema di aggregazione consapevole delle classi, ottenendo così prestazioni all'avanguardia nel mitigare l'oblio temporale e spaziale.

Kunlun Xu, Yibo Feng, Jiangmeng Li, Yongsheng Qi, Jiahuan Zhou2026-03-09🤖 cs.LG

Auto-Regressive U-Net for Full-Field Prediction of Shrinkage-Induced Damage in Concrete

Il documento presenta un approccio di deep learning basato su un'architettura duale che combina un U-Net auto-regressivo e una rete neurale convoluzionale per prevedere in modo efficiente l'evoluzione temporale del danno da ritiro nel calcestruzzo e le relative proprietà meccaniche, al fine di ottimizzare la progettazione delle miscele.

Liya Gaynutdinova, Petr Havlásek, Ondřej Rokoš, Fleur Hendriks, Martin Doškář2026-03-09🤖 cs.LG

← Precedente Successivo →