cs.LG articoli | Gist.Science

Pawsterior: Variational Flow Matching for Structured Simulation-Based Inference

Il paper presenta Pawsterior, un framework di variational flow matching che migliora l'inferenza basata su simulazioni gestendo sia vincoli geometrici strutturati che strutture latenti discrete, risolvendo così le limitazioni dei metodi tradizionali.

Jorge Carrasco-Pollo, Floor Eijkelboom, Jan-Willem van de Meent2026-03-10🤖 cs.LG

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Questo articolo propone una gerarchia a cinque livelli di apprendibilità basata sulla struttura informativa dei problemi computazionali, sostenendo che il progresso dell'apprendimento automatico dipende più dalla verificabilità del feedback (come nel caso della generazione di codice) rispetto alla semplice scalabilità dei modelli.

Zhimin Zhao2026-03-10🤖 cs.LG

LongAudio-RAG: Event-Grounded Question Answering over Multi-Hour Long Audio

Il paper presenta LongAudio-RAG, un framework ibrido che risolve il problema della risposta a domande su audio di lunga durata convertendo i flussi audio in eventi acustici strutturati e recuperabili tramite SQL, permettendo così a un LLM di generare risposte precise con grounding temporale e ridotte allucinazioni, anche in un'architettura edge-cloud.

Naveen Vakada, Kartik Hegde, Arvind Krishna Sridhar, Yinyi Guo, Erik Visser2026-03-10🤖 cs.LG

Accelerated Predictive Coding Networks via Direct Kolen-Pollack Feedback Alignment

Il paper propone la Direct Kolen-Pollack Predictive Coding (DKP-PC), un algoritmo che risolve i problemi di ritardo e decadimento esponenziale del segnale di errore nelle reti di predictive coding introducendo connessioni di feedback apprese direttamente dall'output a tutti i livelli nascosti, riducendo così la complessità temporale di propagazione da O(L) a O(1) e migliorando le prestazioni computazionali mantenendo la località degli aggiornamenti.

Davide Casnici, Martin Lefebvre, Justin Dauwels, Charlotte Frenkel2026-03-10🤖 cs.LG

On the Power of Source Screening for Learning Shared Feature Extractors

Questo articolo dimostra che, nell'apprendimento di estrattori di caratteristiche condivise in contesti lineari, la selezione accurata di un sottoinsieme di fonti informative è sufficiente per raggiungere l'ottimalità minimax, superando la necessità di utilizzare tutti i dati disponibili.

Leo Muxing Wang, Connor Mclaughlin, Lili Su2026-03-10🤖 cs.LG

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

Il paper presenta EC-Net, un framework iperbolico basato su ipergrafi che utilizza embedding nello spazio di Poincaré e apprendimento contrastivo per migliorare la robustezza e l'accuratezza del riconoscimento delle emozioni multimodali, specialmente in presenza di rumore o dati mancanti.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon Fong2026-03-10🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Il paper presenta ModalImmune, un framework di addestramento che garantisce la resilienza dei sistemi multimodali alla perdita o corruzione dei canali di input, insegnando al modello a sviluppare rappresentazioni congiunte robuste attraverso un processo controllato di collasso delle informazioni modali.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon Fong2026-03-10🤖 cs.LG

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

Questo studio introduce il FlyGM, un modello grafico basato sul connettoma cerebrale completo di una mosca della frutta che, integrato con un modello biomeccanico, permette il controllo efficace e generalizzabile della locomozione corporea tramite apprendimento per rinforzo senza necessità di adattamento architetturale specifico.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan Sui2026-03-10🤖 cs.LG

Conformal Tradeoffs: Guarantees Beyond Coverage

Questo lavoro propone un quadro operativo per i predittori conformali che, andando oltre la semplice copertura marginale, garantisce limiti finiti su metriche critiche come la frequenza di decisione e l'esposizione agli errori attraverso correzioni statistiche per piccoli campioni, audit indipendenti e una caratterizzazione geometrica dei compromessi tra le diverse prestazioni operative.

Petrus H. Zwart2026-03-10🤖 cs.LG

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Il documento dimostra che le architetture che apprendono operatori equivarianti in uno spazio latente possono migliorare il riconoscimento di oggetti in trasformazioni simmetriche non viste durante l'addestramento, pur evidenziando le sfide legate alla loro scalabilità su dataset complessi.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Questo lavoro stabilisce un nuovo standard di benchmarking per l'Apprendimento per Rinforzo Multi-Agente (MARL) nella gestione energetica urbana utilizzando l'ambiente CityLearn, dimostrando che le strategie decentralizzate (DTDE) superano quelle centralizzate (CTDE) e proponendo nuove metriche per valutare la sostenibilità e la resilienza dei sistemi.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

RAmmStein: Regime Adaptation in Mean-reverting Markets with Stein Thresholds -- Optimal Impulse Control in Concentrated AMMs

Questo articolo presenta RAmmStein, un metodo di apprendimento per rinforzo profondo che risolve il problema del controllo impulsivo nella fornitura di liquidità concentrata, ottimizzando il timing di ribilanciamento e la larghezza delle posizioni per massimizzare il ROI riducendo drasticamente i costi operativi grazie a una strategia "regime-aware" che sfrutta la mediazione dei prezzi.

Pranay Anchuri2026-03-10🤖 cs.LG

Benchmarking GNN Models on Molecular Regression Tasks with CKA-Based Representation Analysis

Questo studio presenta un benchmark sistematico di quattro architetture GNN su dataset molecolari, dimostrando che un framework di fusione gerarchica con fingerprint supera le prestazioni dei modelli standalone e rivelando, tramite l'analisi CKA, che le rappresentazioni apprese dai GNN e dai fingerprint occupano spazi latenti altamente indipendenti.

Rajan, Ishaan Gupta2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Il paper introduce MrBERT, una famiglia di encoder multilingue basata sull'architettura ModernBERT e pre-addestrata su 35 lingue, che combina prestazioni di punta in domini specifici e linguaggi locali con l'efficienza operativa grazie all'apprendimento di rappresentazioni Matryoshka (MRL).

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

Autoregressive Visual Decoding from EEG Signals

Il lavoro presenta AVDE, un framework leggero ed efficiente basato su modelli autoregressivi che supera le limitazioni delle tecniche attuali nel decodificare immagini dai segnali EEG, ottenendo risultati superiori nella ricostruzione e nel recupero visivo con una frazione dei parametri computazionali.

Sicheng Dai, Hongwang Xiao, Shan Yu, Qiwei Ye2026-03-10🤖 cs.LG

CeRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

Il paper introduce CeRA, un adattatore parallelo a livello di pesi che supera i limiti lineari del LoRA nelle attività di ragionamento complesso espandendo il manifold tramite gating SiLU e dropout strutturale, ottenendo così una maggiore efficienza spettrale e prevenendo il collasso del rango.

Hung-Hsuan Chen2026-03-10🤖 cs.LG

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Questo articolo descrive come l'uso di un modello LLM specializzato per generare milioni di etichette di rilevanza testuale abbia permesso di migliorare significativamente il ranking dell'App Store, superando la scarsità di dati etichettati manualmente e ottenendo un aumento del tasso di conversione, specialmente per le query a coda lunga.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

End-to-end Differentiable Calibration and Reconstruction for Optical Particle Detectors

Questo lavoro presenta il primo simulatore end-to-end differenziabile per rivelatori di particelle ottici, che unifica calibrazione e ricostruzione in un unico framework basato su gradienti, semplificando le pipeline di analisi e superando le prestazioni dei metodi tradizionali.

Omar Alterkait, César Jesús-Valls, Ryo Matsumoto, Patrick de Perio, Kazuhiro Terao2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

Questo articolo presenta Attn-QAT, il primo studio sistematico sulla quantizzazione consapevole dell'addestramento per l'attenzione a 4 bit, che risolve l'instabilità di addestramento e abilita l'inferenza FP4 ad alte prestazioni su GPU emergenti senza ricorrere a euristiche di mitigazione degli outlier.

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

The Partition Principle Revisited: Non-Equal Volume Designs Achieve Minimal Expected Star Discrepancy

Questo articolo dimostra che le partizioni non a volume uguale producono un errore di discrepanza stellata atteso inferiore rispetto al campionamento jittered classico, fornendo nuovi limiti superiori e una base teorica per l'integrazione numerica in alta dimensione.

Xiaoda Xu2026-03-10🤖 cs.LG

← Precedente Successivo →