cs.LG articoli | Gist.Science

On the Power of Source Screening for Learning Shared Feature Extractors

Questo articolo dimostra che, nell'apprendimento di estrattori di caratteristiche condivise in contesti lineari, la selezione accurata di un sottoinsieme di fonti informative è sufficiente per raggiungere l'ottimalità minimax, superando la necessità di utilizzare tutti i dati disponibili.

Leo Muxing Wang, Connor Mclaughlin, Lili Su2026-03-10🤖 cs.LG

Emotion Collider: Dual Hyperbolic Mirror Manifolds for Sentiment Recovery via Anti Emotion Reflection

Il paper presenta EC-Net, un framework iperbolico basato su ipergrafi che utilizza embedding nello spazio di Poincaré e apprendimento contrastivo per migliorare la robustezza e l'accuratezza del riconoscimento delle emozioni multimodali, specialmente in presenza di rumore o dati mancanti.

Rong Fu, Ziming Wang, Shuo Yin, Haiyun Wei, Kun Liu, Xianda Li, Zeli Su, Simon Fong2026-03-10🤖 cs.LG

ModalImmune: Immunity Driven Unlearning via Self Destructive Training

Il paper presenta ModalImmune, un framework di addestramento che garantisce la resilienza dei sistemi multimodali alla perdita o corruzione dei canali di input, insegnando al modello a sviluppare rappresentazioni congiunte robuste attraverso un processo controllato di collasso delle informazioni modali.

Rong Fu, Jia Yee Tan, Zijian Zhang, Ziming Wang, Zhaolu Kang, Muge Qi, Shuning Zhang, Simon Fong2026-03-10🤖 cs.LG

Whole-Brain Connectomic Graph Model Enables Whole-Body Locomotion Control in Fruit Fly

Questo studio introduce il FlyGM, un modello grafico basato sul connettoma cerebrale completo di una mosca della frutta che, integrato con un modello biomeccanico, permette il controllo efficace e generalizzabile della locomozione corporea tramite apprendimento per rinforzo senza necessità di adattamento architetturale specifico.

Zehao Jin, Yaoye Zhu, Chen Zhang, Yanan Sui2026-03-10🤖 cs.LG

Conformal Tradeoffs: Guarantees Beyond Coverage

Questo lavoro propone un quadro operativo per i predittori conformali che, andando oltre la semplice copertura marginale, garantisce limiti finiti su metriche critiche come la frequenza di decisione e l'esposizione agli errori attraverso correzioni statistiche per piccoli campioni, audit indipendenti e una caratterizzazione geometrica dei compromessi tra le diverse prestazioni operative.

Petrus H. Zwart2026-03-10🤖 cs.LG

Latent Equivariant Operators for Robust Object Recognition: Promise and Challenges

Il documento dimostra che le architetture che apprendono operatori equivarianti in uno spazio latente possono migliorare il riconoscimento di oggetti in trasformazioni simmetriche non viste durante l'addestramento, pur evidenziando le sfide legate alla loro scalabilità su dataset complessi.

Minh Dinh, Stéphane Deny2026-03-10🤖 cs.LG

Characterizing MARL for Energy Control: A Multi-KPI Benchmark on the CityLearn Environment

Questo lavoro stabilisce un nuovo standard di benchmarking per l'Apprendimento per Rinforzo Multi-Agente (MARL) nella gestione energetica urbana utilizzando l'ambiente CityLearn, dimostrando che le strategie decentralizzate (DTDE) superano quelle centralizzate (CTDE) e proponendo nuove metriche per valutare la sostenibilità e la resilienza dei sistemi.

Aymen Khouja, Imen Jendoubi, Oumayma Mahjoub, Oussama Mahfoudhi, Ruan De Kock, Siddarth Singh, Claude Formanek2026-03-10🤖 cs.LG

RAmmStein: Regime Adaptation in Mean-reverting Markets with Stein Thresholds -- Optimal Impulse Control in Concentrated AMMs

Questo articolo presenta RAmmStein, un metodo di apprendimento per rinforzo profondo che risolve il problema del controllo impulsivo nella fornitura di liquidità concentrata, ottimizzando il timing di ribilanciamento e la larghezza delle posizioni per massimizzare il ROI riducendo drasticamente i costi operativi grazie a una strategia "regime-aware" che sfrutta la mediazione dei prezzi.

Pranay Anchuri2026-03-10🤖 cs.LG

Benchmarking GNN Models on Molecular Regression Tasks with CKA-Based Representation Analysis

Questo studio presenta un benchmark sistematico di quattro architetture GNN su dataset molecolari, dimostrando che un framework di fusione gerarchica con fingerprint supera le prestazioni dei modelli standalone e rivelando, tramite l'analisi CKA, che le rappresentazioni apprese dai GNN e dai fingerprint occupano spazi latenti altamente indipendenti.

Rajan, Ishaan Gupta2026-03-10🤖 cs.LG

MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

Il paper introduce MrBERT, una famiglia di encoder multilingue basata sull'architettura ModernBERT e pre-addestrata su 35 lingue, che combina prestazioni di punta in domini specifici e linguaggi locali con l'efficienza operativa grazie all'apprendimento di rappresentazioni Matryoshka (MRL).

Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas2026-03-10🤖 cs.LG

Autoregressive Visual Decoding from EEG Signals

Il lavoro presenta AVDE, un framework leggero ed efficiente basato su modelli autoregressivi che supera le limitazioni delle tecniche attuali nel decodificare immagini dai segnali EEG, ottenendo risultati superiori nella ricostruzione e nel recupero visivo con una frazione dei parametri computazionali.

Sicheng Dai, Hongwang Xiao, Shan Yu, Qiwei Ye2026-03-10🤖 cs.LG

CeRA: Breaking the Linear Ceiling of Low-Rank Adaptation via Manifold Expansion

Il paper introduce CeRA, un adattatore parallelo a livello di pesi che supera i limiti lineari del LoRA nelle attività di ragionamento complesso espandendo il manifold tramite gating SiLU e dropout strutturale, ottenendo così una maggiore efficienza spettrale e prevenendo il collasso del rango.

Hung-Hsuan Chen2026-03-10🤖 cs.LG

Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

Questo articolo descrive come l'uso di un modello LLM specializzato per generare milioni di etichette di rilevanza testuale abbia permesso di migliorare significativamente il ranking dell'App Store, superando la scarsità di dati etichettati manualmente e ottenendo un aumento del tasso di conversione, specialmente per le query a coda lunga.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha2026-03-10🤖 cs.LG

End-to-end Differentiable Calibration and Reconstruction for Optical Particle Detectors

Questo lavoro presenta il primo simulatore end-to-end differenziabile per rivelatori di particelle ottici, che unifica calibrazione e ricostruzione in un unico framework basato su gradienti, semplificando le pipeline di analisi e superando le prestazioni dei metodi tradizionali.

Omar Alterkait, César Jesús-Valls, Ryo Matsumoto, Patrick de Perio, Kazuhiro Terao2026-03-10🤖 cs.LG

Attn-QAT: 4-Bit Attention With Quantization-Aware Training

Questo articolo presenta Attn-QAT, il primo studio sistematico sulla quantizzazione consapevole dell'addestramento per l'attenzione a 4 bit, che risolve l'instabilità di addestramento e abilita l'inferenza FP4 ad alte prestazioni su GPU emergenti senza ricorrere a euristiche di mitigazione degli outlier.

Peiyuan Zhang, Matthew Noto, Wenxuan Tan, Chengquan Jiang, Will Lin, Wei Zhou, Hao Zhang2026-03-10🤖 cs.LG

The Partition Principle Revisited: Non-Equal Volume Designs Achieve Minimal Expected Star Discrepancy

Questo articolo dimostra che le partizioni non a volume uguale producono un errore di discrepanza stellata atteso inferiore rispetto al campionamento jittered classico, fornendo nuovi limiti superiori e una base teorica per l'integrazione numerica in alta dimensione.

Xiaoda Xu2026-03-10🤖 cs.LG

How Well Do Multimodal Models Reason on ECG Signals?

Questo lavoro introduce un framework riproducibile per valutare il ragionamento dei modelli multimodali sui segnali ECG, scomponendolo in percezione (verificata tramite codice generato da agenti) e deduzione (validata contro criteri clinici strutturati) per superare i limiti delle attuali metriche di valutazione.

Maxwell A. Xu, Harish Haresamudram, Catherine W. Liu, Patrick Langer, Jathurshan Pradeepkumar, Wanting Mao, Sunita J. Ferns, Aradhana Verma, Jimeng Sun, Paul Schmiedmayer, Xin Liu, Daniel McDuff, Emily B. Fox, James M. Rehg2026-03-10🤖 cs.LG

Opponent State Inference Under Partial Observability: An HMM-POMDP Framework for 2026 Formula 1 Energy Strategy

Questo lavoro presenta un framework ibrido HMM-POMDP per la strategia energetica della Formula 1 del 2026, che combina un modello a stati nascosti per inferire lo stato dei rivali da dati parzialmente osservabili con una rete neurale profonda per ottimizzare le decisioni di deployment energetico e rilevare strategie ingannevoli come la "counter-harvest trap".

Kalliopi Kleisarchaki2026-03-10🤖 cs.LG

TCG CREST System Description for the DISPLACE-M Challenge

Questo rapporto descrive il sistema TCG CREST per la sfida DISPLACE-M, dimostrando che l'uso del sistema ibrido end-to-end Diarizen con clustering gerarchico agglomerativo e filtraggio mediano ha permesso di ottenere una riduzione del 39% dell'errore di diarizzazione rispetto alla baseline SpeechBrain, posizionando il team al sesto posto su 11 partecipanti.

Nikhil Raghav, Md Sahidullah2026-03-10🤖 cs.LG

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Questo studio presenta una pipeline basata su rilevamento e segmentazione che estrae in modo robusto e generalizzabile le onde dell'area glottale da videoendoscopia ad alta velocità, consentendo l'identificazione affidabile di biomarcatori clinici per la valutazione delle patologie laringee in tempo reale.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

← Precedente Successivo →