cs.LG articoli | Gist.Science

A Confidence-Variance Theory for Pseudo-Label Selection in Semi-Supervised Learning

Questo articolo introduce il framework teorico CoVar per la selezione delle pseudo-etichette nell'apprendimento semi-supervisionato, il quale combina la massima confidenza con la varianza delle classi residue per superare i limiti delle soglie fisse e migliorare le prestazioni in compiti di classificazione e segmentazione semantica.

Jinshi Liu, Pan Liu, Lei He2026-02-27🤖 cs.AI

Rethinking Cross-Modal Fine-Tuning: Optimizing the Interaction between Feature Alignment and Target Fitting

Questo articolo presenta un quadro teorico che stabilisce un limite di generalizzazione per l'adattamento incrociato di modalità, introducendo il concetto di distorsione feature-etichetta per ottimizzare l'interazione tra allineamento delle caratteristiche e adattamento al target, ottenendo così prestazioni superiori rispetto agli stati dell'arte.

Trong Khiem Tran, Manh Cuong Dao, Phi Le Nguyen + 2 more2026-02-27🤖 cs.AI

Learning Hamiltonian Flow Maps: Mean Flow Consistency for Large-Timestep Molecular Dynamics

Il paper introduce un quadro per apprendere mappe di flusso hamiltoniano basate sulla coerenza del flusso medio, che consente aggiornamenti a grandi passi temporali nelle simulazioni di dinamica molecolare senza richiedere la generazione di traiettorie costose, utilizzando invece campioni indipendenti dello spazio delle fasi.

Winfried Ripken, Michael Plainer, Gregor Lied + 5 more2026-02-27🤖 cs.LG

Beyond Fixed Rounds: Data-Free Early Stopping for Practical Federated Learning

Questo lavoro propone il primo framework di arresto anticipato privo di dati per l'Apprendimento Federato, che determina il punto di stop ottimale monitorando la crescita del vettore del compito tramite parametri lato server, ottenendo prestazioni superiori rispetto ai metodi basati su dati di validazione senza compromettere la privacy.

Youngjoon Lee, Hyukjoon Lee, Seungrok Jung + 4 more2026-02-27🤖 cs.LG

Agentic Framework for Epidemiological Modeling

Il paper presenta EPIAGENT, un framework agentic che automatizza la sintesi, la calibrazione e la verifica di simulatori epidemiologici attraverso un'intermediazione a grafo di flusso, garantendo modelli meccanicistici coerenti e accelerando la convergenza verso proiezioni valide rispetto ai metodi tradizionali.

Rituparna Datta, Zihan Guan, Baltazar Espinoza + 5 more2026-02-27🤖 cs.LG

A Minimum Variance Path Principle for Accurate and Stable Score-Based Density Ratio Estimation

Il paper risolve il paradosso tra indipendenza e dipendenza dal percorso nei metodi basati sul punteggio proponendo il principio MVP, che minimizza la varianza del percorso tramite un'espressione in forma chiusa e un modello di miscela Kumaraswamy per ottenere stime del rapporto di densità più accurate e stabili.

Wei Chen, Jiacheng Li, Shigui Li + 4 more2026-02-27📊 stat

Phase Transitions for Feature Learning in Neural Networks

Questo studio caratterizza la soglia critica $\delta_{\text{NN}}$ per l'apprendimento delle feature nelle reti neurali a due strati durante l'addestramento con discesa del gradiente, identificando una transizione di fase nello spettro dell'Hessiano che determina la capacità dell'algoritmo di apprendere la proiezione latente sottostante.

Andrea Montanari, Zihao Wang2026-02-27📊 stat

Controlling Exploration-Exploitation in GFlowNets via Markov Chain Perspectives

Il paper propone gli $\alpha$ -GFN, un quadro teorico basato sulla reversibilità delle catene di Markov che generalizza gli obiettivi delle GFlowNet tramite un parametro $\alpha$ per controllare dinamicamente il compromesso esplorazione-sfruttamento, migliorando significativamente la scoperta di modalità in diversi compiti di generazione.

Lin Chen, Samuel Drapeau, Fanghao Shao + 5 more2026-02-27🤖 cs.AI

Spark: Modular Spiking Neural Networks

Il paper presenta Spark, un nuovo framework modulare per le reti neurali a impulsi progettato per ottimizzare l'efficienza energetica e dei dati, facilitando l'apprendimento continuo e non batchizzato attraverso meccanismi di plasticità semplici.

Mario Franco, Carlos Gershenson2026-02-27🤖 cs.AI

VQ-Style: Disentangling Style and Content in Motion with Residual Quantized Representations

Il paper propone un metodo innovativo basato su RVQ-VAE e apprendimento contrastivo per disaccoppiare contenuto e stile nei dati di movimento umano, permettendo il trasferimento di stile senza riaddestramento tramite una tecnica di scambio di codici quantizzati.

Fatemeh Zargarbashi, Dhruv Agrawal, Jakob Buhmann + 3 more2026-02-27🤖 cs.AI

Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification

Il documento propone l'Evidential Uncertainty Quantification (EUQ), un metodo innovativo che utilizza la teoria dell'evidenza per rilevare le disfunzioni dei modelli visione-linguaggio su larga scala distinguendo tra conflitti interni e ignoranza, superando così i limiti delle tecniche di quantificazione dell'incertezza esistenti.

Tao Huang, Rui Wang, Xiaofei Liu + 3 more2026-02-27🤖 cs.LG

Learning Credal Ensembles via Distributionally Robust Optimization

Il paper propone CreDRO, un metodo che apprende ensemble credali ottimizzando la robustezza distribuzionale per catturare l'incertezza epistemica derivante da potenziali spostamenti di distribuzione, superando le limitazioni delle tecniche basate sulla sola casualità dell'inizializzazione e ottenendo prestazioni superiori in compiti come la rilevazione di dati fuori distribuzione e la classificazione selettiva in ambito medico.

Kaizheng Wang, Ghifari Adam Faza, Fabio Cuzzolin + 3 more2026-02-27📊 stat

When Less is More: The LLM Scaling Paradox in Context Compression

Questo studio rivela un paradosso di fedeltà nella compressione del contesto, in cui l'aumento delle dimensioni del modello peggiora la ricostruzione fedele dei dati a causa dell'overwriting delle conoscenze e della deriva semantica, sfidando la convinzione che modelli più grandi garantiscano sempre prestazioni superiori.

Ruishan Guo, Yibing Liu, Guoxin Ma + 6 more2026-02-27🤖 cs.LG

Versor: A Geometric Sequence Architecture

Il paper presenta Versor, una nuova architettura sequenziale basata sull'Algebra Geometrica Conforme che, sostituendo le operazioni lineari tradizionali con trasformazioni geometriche, supera i Transformer e le reti geometriche esistenti in termini di efficienza, generalizzazione strutturale e interpretabilità su compiti dinamici e multimodali.

Truong Minh Huy, Edward Hirst2026-02-27⚛️ hep-th

Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

Questo lavoro introduce il framework Generalized On-Policy Distillation (G-OPD), che estende la distillazione on-policy standard attraverso un fattore di scaling del reward e un modello di riferimento flessibile, dimostrando che l'estrapolazione del reward (ExOPD) e la correzione del reward basata sul modello pre-RL del docente permettono di superare le prestazioni dei modelli insegnanti in compiti di ragionamento matematico e generazione di codice.

Wenkai Yang, Weijie Liu, Ruobing Xie + 3 more2026-02-27💬 cs.CL

GPT-4o Lacks Core Features of Theory of Mind

Nonostante i modelli linguistici di grandi dimensioni (LLM) riescano a simulare giudizi umani in compiti semplici di teoria della mente, la ricerca dimostra che mancano di un modello causale coerente e generalizzabile dei stati mentali, rivelando che la loro apparente competenza sociale non deriva da una vera teoria della mente.

John Muchovej, Amanda Royka, Shane Lee + 1 more2026-02-27💬 cs.CL

Symmetry in language statistics shapes the geometry of model representations

Lo studio dimostra che la struttura geometrica delle rappresentazioni interne dei modelli linguistici, come cerchi o varietà, nasce universalmente dalle simmetrie di traslazione presenti nelle statistiche dei dati naturali e ne deriva una geometria analitica che risulta robusta anche in presenza di perturbazioni.

Dhruva Karkada, Daniel J. Korchinski, Andres Nava + 2 more2026-02-27💬 cs.CL

ÜberWeb: Insights from Multilingual Curation for a 20-Trillion-Token Dataset

Il paper dimostra che una curazione mirata dei dati per lingua, piuttosto che limiti di capacità fondamentali, risolve l'interferenza multilingue e permette di ottenere modelli ad alte prestazioni in diverse lingue con una frazione significativa del calcolo necessario rispetto alle basi pubbliche.

DatologyAI, :, Aldo Gael Carranza + 32 more2026-02-27🤖 cs.LG

Benchmarking IoT Time-Series AD with Event-Level Augmentations

Questo studio introduce un protocollo di valutazione basato su eventi e aumentazioni realistiche per il rilevamento di anomalie nelle serie temporali IoT, dimostrando attraverso il benchmark di 14 modelli su dataset pubblici e industriali che non esiste un vincitore universale e che le prestazioni variano significativamente in base al tipo di perturbazione e all'architettura del modello.

Dmitry Zhevnenko, Ilya Makarov, Aleksandr Kovalenko + 6 more2026-02-27🤖 cs.LG

Large-scale online deanonymization with LLMs

Questo studio dimostra che i grandi modelli linguistici (LLM) possono essere utilizzati per eseguire su larga scala la deanonimizzazione di utenti pseudonimi su piattaforme online, superando significativamente i metodi tradizionali e rivelando che l'oscurità pratica che proteggeva l'anonimato digitale non è più sufficiente.

Simon Lermen, Daniel Paleka, Joshua Swanson + 3 more2026-02-27🤖 cs.AI

← Precedente Successivo →