cs.LG articoli | Gist.Science

TCG CREST System Description for the DISPLACE-M Challenge

Questo rapporto descrive il sistema TCG CREST per la sfida DISPLACE-M, dimostrando che l'uso del sistema ibrido end-to-end Diarizen con clustering gerarchico agglomerativo e filtraggio mediano ha permesso di ottenere una riduzione del 39% dell'errore di diarizzazione rispetto alla baseline SpeechBrain, posizionando il team al sesto posto su 11 partecipanti.

Nikhil Raghav, Md Sahidullah2026-03-10🤖 cs.LG

A Detection-Gated Pipeline for Robust Glottal Area Waveform Extraction and Clinical Pathology Assessment

Questo studio presenta una pipeline basata su rilevamento e segmentazione che estrae in modo robusto e generalizzabile le onde dell'area glottale da videoendoscopia ad alta velocità, consentendo l'identificazione affidabile di biomarcatori clinici per la valutazione delle patologie laringee in tempo reale.

Harikrishnan Unnikrishnan2026-03-10🤖 cs.LG

Leveraging Model Soups to Classify Intangible Cultural Heritage Images from the Mekong Delta

Questo studio propone un framework innovativo che combina l'architettura CoAtNet con la tecnica "model soups" per classificare immagini del patrimonio culturale immateriale del Delta del Mekong, ottenendo risultati all'avanguardia su dati scarsi riducendo la varianza del modello senza aumentare i costi di inferenza.

Quoc-Khang Tran, Minh-Thien Nguyen, Nguyen-Khang Pham2026-03-10🤖 cs.LG

Personalized Multi-Agent Average Reward TD-Learning via Joint Linear Approximation

Questo studio propone un algoritmo di apprendimento TD multi-agente personalizzato che, sfruttando una rappresentazione lineare condivisa e un'architettura federata, garantisce la convergenza e un'accelerazione lineare filtrando i segnali conflittuali in ambienti eterogenei, superando le sfide analitiche legate alla dinamica degli errori e alla mancanza di contrazione diretta nelle distanze degli spazi.

Leo Muxing Wang, Pengkun Yang, Lili Su2026-03-10🤖 cs.LG

Embedding interpretable $\ell_1$ -regression into neural networks for uncovering temporal structure in cell imaging

Il paper propone un metodo ibrido che integra un modello di regressione autoregressiva vettoriale con regolarizzazione $\ell_1$ all'interno di un autoencoder convoluzionale per estrarre e interpretare dinamiche temporali sparse da dati di imaging cellulare, combinando la capacità di riduzione dimensionale delle reti neurali con l'interpretabilità statistica.

Fabian Kabus, Maren Hackenberg, Julia Hindel, Thibault Cholvin, Antje Kilias, Thomas Brox, Abhinav Valada, Marlene Bartos, Harald Binder2026-03-10🤖 cs.LG

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Questo articolo propone GramCol e le Mappe di Attenzione al Movimento Interpretabili (IMAP) per localizzare spazialmente e temporalmente i concetti di movimento nei Video Diffusion Transformers senza richiedere calcoli di gradiente o aggiornamenti dei parametri.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Il paper propone CGL, un framework di apprendimento continuo per agenti GUI che bilancia adattamento e ritenzione della conoscenza combinando il fine-tuning supervisionato con l'apprendimento per rinforzo, mitigando l'interferenza dei gradienti e introducendo un nuovo benchmark AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

Why Adam Can Beat SGD: Second-Moment Normalization Yields Sharper Tails

Questo articolo dimostra teoricamente che Adam supera SGD fornendo una garanzia di convergenza ad alta probabilità con una dipendenza dal parametro di confidenza $\delta$ di ordine $\delta^{-1/2}$ , nettamente migliore rispetto alla dipendenza $\delta^{-1}$ necessaria per SGD, grazie all'analisi della normalizzazione del secondo momento.

Ruinan Jin, Yingbin Liang, Shaofeng Zou2026-03-10🤖 cs.LG

Information Routing in Atomistic Foundation Models: How Task Alignment and Equivariance Shape Linear Disentanglement

Il paper introduce la Compositional Probe Decomposition (CPD) per dimostrare che l'allineamento tra il compito di addestramento e la proprietà target, insieme all'architettura equivariante, determina il grado di disaccoppiamento lineare tra informazioni geometriche e composizionali nei modelli fondazionali atomistici, rivelando che canali vettoriali e scalari codificano selettivamente diverse proprietà fisiche.

Joshua Steier2026-03-10🤖 cs.LG

XInsight: Integrative Stage-Consistent Psychological Counseling Support Agents for Digital Well-Being

Il paper presenta XInsight, un framework multi-agente ispirato alla consulenza psicologica che organizza il supporto digitale in un flusso di lavoro coerente con il paradigma Esplorazione-Insight-Azione, integrando agenti specializzati per la concettualizzazione dei casi, il routing terapeutico adattivo e la documentazione strutturata, e introduce XInsight-Bench per una valutazione rigorosa, migliorando significativamente l'allineamento clinico e l'interpretabilità rispetto ai sistemi esistenti.

Fei Wang, Jiangnan Yang, Junjie Chen, Yuxin Liu, Kun Li, Yanyan Wei, Dan Guo, Meng Wang2026-03-10🤖 cs.LG

vLLM Hook v0: A Plug-in for Programming Model Internals on vLLM

Il paper presenta vLLM Hook, un plugin open-source che abilita la programmazione passiva e attiva degli stati interni dei modelli LLM su vLLM, permettendo applicazioni come il rilevamento di prompt injection, il miglioramento del RAG e il controllo tramite attivazioni.

Ching-Yun Ko, Pin-Yu Chen2026-03-10🤖 cs.LG

Isotonic Layer: A Universal Framework for Generic Recommendation Debiasing

Il paper introduce l'Isotonic Layer, un nuovo framework differenziabile che integra l'adattamento lineare a tratti nelle architetture neurali per imporre un bias monotono globale, permettendo una calibrazione granulare e adattiva che mitiga efficacemente i pregiudizi sistematici e migliora l'affidabilità dei sistemi di raccomandazione su larga scala.

Hailing Cheng, Yafang Yang, Hemeng Tao, Fengyu Zhang2026-03-10🤖 cs.LG

How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

Questo studio individua il "P0 Sink Circuit", un meccanismo semplice e privo di contenuto semantico che si forma nelle prime fasi dell'addestramento e nelle prime due strati dei modelli linguistici, spiegando come e perché si generi l'attenzione sismica sul primo token dell'input.

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu2026-03-10🤖 cs.LG

Hierarchical Latent Structures in Data Generation Process Unify Mechanistic Phenomena across Scale

Questo lavoro unifica la spiegazione dell'emergere di fenomeni meccanicistici nei modelli linguistici, dimostrando che le strutture gerarchiche nel processo di generazione dei dati sono il fattore chiave, utilizzando corpora sintetici basati su grammatiche probabilistiche per validare teoricamente e empiricamente tale ipotesi.

Jonas Rohweder, Subhabrata Dutta, Iryna Gurevych2026-03-10🤖 cs.LG

Hierarchical Embedding Fusion for Retrieval-Augmented Code Generation

Il paper presenta HEF (Hierarchical Embedding Fusion), un approccio a due stadi per la generazione di codice che comprime offline i repository in una gerarchia di vettori densi e li integra online tramite pseudo-token, ottenendo prestazioni di accuratezza comparabili ai metodi basati su snippet ma con una latenza end-to-end ridotta fino a 26 volte.

Nikita Sorokin, Ivan Sedykh, Valentin Malykh2026-03-10🤖 cs.LG

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

Il paper presenta FuzzingRL, un approccio che combina fuzzing visivo e linguistico con il fine-tuning per rinforzo avversario per generare automaticamente varianti di domande capaci di indurre errori e rivelare le vulnerabilità dei Modelli Linguistici Visivi (VLM).

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Switchable Activation Networks

Il paper introduce SWAN (Switchable Activation Networks), un framework che equipaggia ogni unità neurale con un gate binario deterministico dipendente dall'input per allocare dinamicamente il calcolo, riducendo la ridondanza e preservando l'accuratezza attraverso pattern di attivazione strutturati e adattivi.

Laha Ale, Ning Zhang, Scott A. King, Pingzhi Fan2026-03-10🤖 cs.LG

Khatri-Rao Clustering for Data Summarization

Il paper introduce il paradigma di clustering Khatri-Rao, che estende i metodi di clustering basati su centroidi (come k-Means e il deep clustering) decomponendo i centroidi in insiemi più compatti di protocentroidi per generare riassunti dei dati più concisi senza comprometterne l'accuratezza.

Martino Ciaperoni, Collin Leiber, Aristides Gionis, Heikki Mannila2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

Questo studio dimostra che la duplicazione dei dati è dipendente dalla scala, rivelando come le copie semantiche diventino sempre più dannose per i modelli di grandi dimensioni a causa di gradienti allineati e collisioni semantiche accelerate, portando a derive nelle leggi di scaling che possono essere quantificate tramite nuove formule predittive.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Questo paper introduce un metodo per allineare la confidenza degli LLM alla correttezza delle loro risposte utilizzando punteggi normalizzati basati su token di ancoraggio, dimostrando che il fine-tuning supervisionato migliora l'affidabilità rispetto ai metodi di apprendimento per rinforzo e abilitando applicazioni pratiche come la generazione aumentata da recupero adattiva.

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

← Precedente Successivo →

cs.LG