cs.LG articoli | Gist.Science

Video TokenCom: Textual Intent-Guided Multi-Rate Video Token Communications with UEP-Based Adaptive Source-Channel Coding

Il documento propone Video TokenCom, un nuovo framework per la comunicazione video che, integrando descrizioni testuali, tokenizzazione discreta e protezione d'errore disuguale (UEP), ottimizza l'allocazione delle risorse e la fedeltà semantica in condizioni di banda limitata.

Jingxuan Men, Mahdi Boloursaz Mashhadi, Ning Wang + 3 more2026-03-04⚡ eess

Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild

Questo lavoro presenta STW, un ampio dataset open-source e un benchmark per la classificazione delle tonalità della pelle basato sulla scala MST a 10 toni, introducendo SkinToneNet, un modello ViT che supera i metodi classici e permette un'analisi equa e affidabile di dataset pubblici.

Vitor Pereira Matias, Márcus Vinícius Lobo Costa, João Batista Neto + 1 more2026-03-04🤖 cs.LG

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Il paper presenta MUSE, una piattaforma open-source per la valutazione unificata della sicurezza multimodale dei grandi modelli linguistici che integra la generazione automatica di payload cross-modali, algoritmi di attacco multi-turno e un sistema di giudizio basato su LLM, rivelando come le strategie di attacco multi-turno e il cambio di modalità tra i turni possano compromettere significativamente le difese dei modelli anche quando questi mostrano un alto tasso di rifiuto negli input singoli.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang + 2 more2026-03-04⚡ eess

Geometric structures and deviations on James' symmetric positive-definite matrix bicone domain

Questo lavoro introduce nuove strutture geometriche di tipo Finsleriano e duale information-geometrico sul dominio dei biconi di matrici definite positive simmetriche di James, garantendo che le geodetiche corrispondano a linee rette e generalizzando distanze esistenti con applicazioni in diversi campi scientifici.

Jacek Karwowski, Frank Nielsen2026-03-04📊 stat

Learning-Augmented Moment Estimation on Time-Decay Models

Questo articolo presenta algoritmi potenziati dall'apprendimento automatico per la stima di momenti e frequenze nel modello a decadimento temporale, sfruttando un oracolo per gli elementi più frequenti per migliorare l'efficienza spaziale e convalidando i risultati teorici attraverso valutazioni empiriche.

Soham Nagawanshi, Shalini Panthangi, Chen Wang + 2 more2026-03-04🤖 cs.LG

What Capable Agents Must Know: Selection Theorems for Robust Decision-Making under Uncertainty

Il documento dimostra che agenti capaci di agire con competenza in condizioni di incertezza devono necessariamente implementare stati interni strutturati e predittivi, poiché un basso rimpianto medio su compiti di previsione condizionale impone la distinzione tra esiti ad alto margine, portando al recupero approssimato del kernel di transizione interventivo o di stati di memoria simili a credenze.

Aran Nayebi2026-03-04🧬 q-bio

ParEVO: Synthesizing Code for Irregular Data: High-Performance Parallelism through Agentic Evolution

Il paper presenta ParEVO, un framework basato su agenti evolutivi e modelli linguistici specializzati che sintetizza algoritmi paralleli ad alte prestazioni per dati irregolari, superando le limitazioni dei modelli attuali e ottenendo significativi miglioramenti nelle prestazioni rispetto alle soluzioni umane e commerciali.

Liu Yang, Zeyu Nie, Andrew Liu + 4 more2026-03-04🤖 cs.LG

Thermodynamic Regulation of Finite-Time Gibbs Training in Energy-Based Models: A Restricted Boltzmann Machine Study

Questo studio propone un quadro di regolazione termodinamica endogena per l'addestramento delle Restricted Boltzmann Machines, in cui la temperatura evolve dinamicamente per mitigare l'instabilità strutturale e il congelamento dei campioni, garantendo la stabilità globale dei parametri e migliorando le prestazioni di normalizzazione rispetto ai metodi a temperatura fissa.

Görkem Can Süleymanoğlu2026-03-04🤖 cs.LG

Bridging Diffusion Guidance and Anderson Acceleration via Hopfield Dynamics

Questo lavoro propone la Geometry Aware Attention Guidance (GAG), un metodo che unifica l'estrapolazione nello spazio dell'attenzione e l'accelerazione di Anderson tramite la dinamica delle reti di Hopfield moderne per migliorare la qualità e l'efficienza dei modelli di diffusione.

Kwanyoung Kim2026-03-04🤖 cs.AI

Functional Properties of the Focal-Entropy

Questo lavoro fornisce una fondazione teorica per la funzione di focal-loss, analizzandone le proprietà dell'entropia focale per dimostrare come essa amplifichi le probabilità intermedie, sopprima quelle elevate e induca una sovrastima della soppressione in scenari di forte squilibrio di classe, offrendo così una comprensione sistematica dei compromessi introdotti nell'apprendimento imbalanced.

Jaimin Shah, Martina Cardone, Alex Dytso2026-03-04📊 stat

CoDAR: Continuous Diffusion Language Models are More Powerful Than You Think

Il paper introduce CoDAR, un framework a due stadi che risolve il collo di bottiglia della quantizzazione nei modelli di linguaggio a diffusione continua mantenendo la generazione nello spazio degli embedding e utilizzando un decoder autoregressivo per la discretizzazione contestuale, ottenendo così prestazioni competitive con i modelli discreti.

Junzhe Shen, Jieru Zhao, Ziwei He + 1 more2026-03-04💬 cs.CL

Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Questo articolo presenta un robot assistivo chirurgico a due bracci in grado di consegnare strumenti in modo autonomo e privo di collisioni, utilizzando modelli linguaggio-visione per interpretare i comandi e un framework di programmazione quadratica per evitare ostacoli in tempo reale, raggiungendo un tasso di successo dell'83,33% in ambienti dinamici.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Through the Lens of Contrast: Self-Improving Visual Reasoning in VLMs

Il paper presenta VC-STaR, un nuovo framework di auto-miglioramento che sfrutta coppie di domande visive contrastive per mitigare le allucinazioni nei modelli visione-linguaggio, generando il dataset VisCoR-55K che potenzia significativamente le capacità di ragionamento visivo rispetto agli approcci esistenti.

Zhiyu Pan, Yizheng Wu, Jiashen Hua + 5 more2026-03-04💬 cs.CL

SOLAR: SVD-Optimized Lifelong Attention for Recommendation

Il paper presenta SOLAR, un framework di raccomandazione che utilizza l'attenzione SVD-Optimized per ridurre la complessità computazionale preservando la distribuzione softmax, permettendo così di modellare sequenze comportamentali di scala massiccia e migliorando le visualizzazioni video del 0,68% nello scenario online di Kuaishou.

Chenghao Zhang, Chao Feng, Yuanhao Pu + 8 more2026-03-04🤖 cs.LG

EdgeFLow: Serverless Federated Learning via Sequential Model Migration in Edge Networks

Il paper presenta EdgeFLow, un innovativo framework di Federated Learning che sostituisce i server cloud con una migrazione sequenziale dei modelli tra stazioni base edge, riducendo drasticamente l'overhead di comunicazione e mantenendo prestazioni di accuratezza comparabili.

Yuchen Shi, Qijun Hou, Pingyi Fan + 1 more2026-03-04🤖 cs.LG

FlashEvaluator: Expanding Search Space with Parallel Evaluation

FlashEvaluator è un nuovo framework che supera i limiti dei metodi Generator-Evaluator tradizionali consentendo la condivisione delle informazioni tra sequenze e l'elaborazione parallela in un singolo passaggio, migliorando così sia l'accuratezza della selezione che l'efficienza computazionale, con risultati già validati in produzione su Kuaishou.

Chao Feng, Yuanhao Pu, Chenghao Zhang + 8 more2026-03-04💬 cs.CL

Wasserstein Proximal Policy Gradient

Il paper introduce il Wasserstein Proximal Policy Gradient (WPPG), un metodo per l'apprendimento per rinforzo con azioni continue e regolarizzazione dell'entropia che, sfruttando la geometria di Wasserstein e un'alternanza tra trasporto ottimo e convoluzione gaussiana, evita la valutazione della densità logaritmica della politica garantendo al contempo una convergenza lineare globale e prestazioni competitive.

Zhaoyu Zhu, Shuhan Zhang, Rui Gao + 1 more2026-03-04🤖 cs.LG

Towards Parameter-Free Temporal Difference Learning

Questo lavoro propone un algoritmo TD(0) con schedule esponenziale del passo di apprendimento che, sia nel caso di campionamento i.i.d. che in quello markoviano, garantisce convergenza ottimale senza richiedere la conoscenza di parametri specifici del problema o modifiche non standard.

Yunxiang Li, Mark Schmidt, Reza Babanezhad + 1 more2026-03-04🤖 cs.LG

How Controllable Are Large Language Models? A Unified Evaluation across Behavioral Granularities

Il paper introduce SteerEval, un benchmark gerarchico che valuta la controllabilità dei modelli linguistici su tre domini e tre livelli di granularità, rivelando come il controllo tenda a degradare a livelli più fini e fornendo un quadro interpretabile per comportamenti LLM più sicuri.

Ziwen Xu, Kewei Xu, Haoming Xu + 8 more2026-03-04💬 cs.CL

Joint Optimization of Model Partitioning and Resource Allocation for Anti-Jamming Collaborative Inference Systems

Questo articolo propone un sistema di inferenza collaborativa anti-disturbo che ottimizza congiuntamente la partizione del modello DNN e l'allocazione delle risorse per massimizzare il ricavo di ritardo e accuratezza, superando le sfide poste dai jammer malintenzionati attraverso un algoritmo di ottimizzazione alternata.

Mengru Wu, Jiawei Li, Jiaqi Wei + 3 more2026-03-04⚡ eess

← Precedente Successivo →