cs.LG articoli | Gist.Science

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Il paper introduce A3RL, un nuovo metodo di apprendimento per rinforzo che combina dati online e offline tramite una strategia di campionamento attiva e consapevole della fiducia per superare limiti come l'oblio catastrofico e migliorare l'efficienza dei campioni.

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin Chen2026-03-10🤖 cs.LG

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

Il paper propone il framework "Texts as Time Series" (TaTS), che sfrutta le proprietà periodiche dei testi associati alle serie temporali come variabili ausiliarie per potenziare le prestazioni di modelli esistenti nelle previsioni e nell'imputazione multimodale senza modificare le loro architetture.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

Il paper presenta LaVCa, un approccio basato su modelli linguistici di grandi dimensioni (LLM) che genera didascalie naturali per descrivere con maggiore precisione e dettaglio la selettività dei voxel nella corteccia visiva umana, superando i limiti dei modelli di codifica tradizionali e rivelando nuove sfumature nella rappresentazione visiva del cervello.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Il paper propone il framework COD (Clustering-On-Difficulty), che raggruppa i compiti in base alle loro caratteristiche di scalabilità per prevedere con alta precisione le prestazioni downstream dei grandi modelli linguistici, superando le sfide poste dai fenomeni emergenti e dalla variabilità delle metriche.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Questo studio presenta un algoritmo che fonde immagini MRI multimodali pre-elaborate e segmentate tramite architetture UNET in 2D e 3D, per poi classificarle con un modello ResNet50, ottenendo un'accuratezza del 99,25% nella sottoclassificazione dei gliomi.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Questo lavoro propone LOOP, un nuovo metodo di apprendimento per rinforzo che combina le tecniche di riduzione della varianza di REINFORCE con la robustezza di PPO per ottimizzare il fine-tuning dei modelli di diffusione testo-immagine, ottenendo un miglior equilibrio tra efficienza nel campionamento e prestazioni finali.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

Il paper presenta OrthoGrad, un nuovo metodo di disapprendimento automatico che proietta i gradienti dei dati da rimuovere nello spazio ortogonale ai gradienti di un piccolo insieme di dati di ritenzione, permettendo così di eliminare concetti specifici senza compromettere le prestazioni del modello anche quando l'intero dataset di addestramento non è disponibile.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Il paper presenta GlucoLens, un sistema di intelligenza artificiale spiegabile che utilizza dati provenienti da dispositivi indossabili e diete per prevedere l'iperglicemia postprandiale e suggerire percorsi di trattamento comportamentale personalizzati, ottenendo prestazioni superiori rispetto ai modelli esistenti.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Il paper presenta IMPACT, un nuovo framework di pianificazione del movimento che utilizza modelli visione-linguaggio per generare mappe di costo anisotrope e identificare contatti sicuri, permettendo a un robot di navigare in ambienti affollati attraverso percorsi ricchi di contatto controllati e sicuri.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

Il paper introduce le equivalenze prototipo lisce (SPE), un framework basato su reti neurali invertibili che permette di caratterizzare il comportamento a lungo termine di sistemi dinamici non lineari partendo da osservazioni sparse e rumorose, identificando strutture invarianti e classificando regimi dinamici senza richiedere equazioni esplicithe.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

Il paper presenta MUSS, un nuovo metodo multilivello per la selezione di sottoinsiemi rilevanti e diversificati che, sfruttando la struttura dei dati, supera le tecniche esistenti in termini di precisione e velocità in applicazioni come i sistemi di raccomandazione e il RAG, garantendo al contempo un'approssimazione a fattore costante dell'obiettivo ottimale.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Il paper presenta EDU-PRM, un modello di ricompensa per processi basato sull'entropia che segmenta automaticamente i passaggi di ragionamento complesso senza annotazioni manuali, ottenendo prestazioni superiori su ProcessBench con solo l'1,5% dei dati di addestramento e riducendo significativamente l'uso di token.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Questo studio propone un framework ibrido innovativo, denominato MetaBoost, che integra tecniche di bilanciamento dei dati e analisi controfattuali per migliorare l'accuratezza della previsione della Sindrome Metabolica e identificare i fattori di rischio modificabili più critici, come la glicemia e i trigliceridi.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Questo studio dimostra che l'uso di modelli linguistici di grandi dimensioni (LLM) per estrarre caratteristiche cognitive e linguistiche, successivamente elaborate da algoritmi di apprendimento automatico basati su alberi decisionali, consente di stimare con maggiore precisione la difficoltà degli item nei test scolastici rispetto alla valutazione diretta, offrendo un'alternativa efficiente e scalabile ai costosi test sul campo.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Questo lavoro presenta il primo agente di guida autonoma basato sulla visione che, utilizzando esclusivamente dati visivi e sensoriali a bordo senza bisogno di localizzazione precisa, raggiunge prestazioni da campione nel gioco Gran Turismo 7 grazie a un framework attore-critico asimmetrico.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Il paper propone un quadro di risposta lineare per l'interpretabilità dei piccoli modelli linguistici, trattandoli come sistemi statistici meccanici bayesiani per identificare moduli funzionali tramite l'analisi delle suscettibilità indotte da perturbazioni nella distribuzione dei dati.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

Il paper propone HetGL2R, un framework di apprendimento basato su grafi eterogenei che integra flussi origine-destinazione e informazioni sui percorsi per migliorare il ranking dell'importanza dei segmenti stradali, superando i limiti dei metodi esistenti nel modellare dipendenze spaziali a lungo raggio.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Questo articolo presenta una revisione completa che unifica la valutazione di modelli e agenti AI autonomi attraverso una tassonomia di circa 60 benchmark, esamina framework e protocolli di collaborazione, illustra applicazioni reali in vari settori e propone raccomandazioni per la ricerca futura.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Il paper introduce StablePCA, un framework di apprendimento robusto rispetto alla distribuzione che risolve il problema non convesso dell'estrazione di rappresentazioni latenti condivise da dati multi-sorgente tramite una rilassazione convessa risolta con un algoritmo Mirror-Prox, fornendo garanzie di convergenza globale e condizioni per la precisione della rilassazione.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Questo articolo propone un framework di ottimizzazione delle politiche offline personalizzate per processi decisionali di Markov eterogenei, introducendo l'algoritmo P4L che garantisce una rapida convergenza del rimpianto e supera le prestazioni dei metodi esistenti sia in simulazioni che su dati reali.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

← Precedente Successivo →