cs.LG articoli | Gist.Science

Wasserstein Gradient Flows for Batch Bayesian Optimal Experimental Design

Questo articolo propone un nuovo approccio al disegno ottimale bayesiano degli esperimenti in batch basato sui flussi gradiente di Wasserstein, che trasforma il problema di ottimizzazione non convesso in uno spazio di misure probabilistiche per derivare algoritmi scalabili in grado di gestire efficacemente paesaggi di ottimizzazione multimodali.

Louis Sharrock2026-03-13📊 stat

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

Questo articolo presenta MMDDPG, un framework di apprendimento per rinforzo che utilizza un'ottimizzazione minimax con un obiettivo frazionario per addestrare politiche di controllo robuste e stabili contro disturbi esterni e incertezze del modello in ambienti continui.

Taeho Lee, Donghwan Lee2026-03-13🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Il paper presenta Cornserve, un sistema di serving distribuito open-source basato su Kubernetes che ottimizza l'esecuzione dei modelli multimodali "Any-to-Any" attraverso la disaggregazione dei componenti e un modello di esecuzione record-and-replay, ottenendo un aumento significativo del throughput e una riduzione della latenza.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf Chowdhury2026-03-13🤖 cs.LG

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Il paper presenta Hoi3DGen, un framework che genera mesh 3D di alta qualità e testurate per interazioni uomo-oggetto da descrizioni testuali, superando i metodi esistenti grazie a dati interattivi curati con modelli linguistici multimodali e ottenendo miglioramenti significativi nella fedeltà all'input e nella qualità del modello 3D.

Agniv Sharma, Xianghui Xie, Tom Fischer, Eddy Ilg, Gerard Pons-Moll2026-03-13🤖 cs.LG

Automatic Generation of High-Performance RL Environments

Questo lavoro presenta un metodo automatizzato e a basso costo per generare ambienti di apprendimento per rinforzo ad alte prestazioni, semanticamente equivalenti e verificati, che offrono accelerazioni fino a 22.320 volte rispetto alle implementazioni di riferimento esistenti.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

Il paper introduce FlashMotion, un nuovo framework di training che combina un adattatore per traiettorie, distillazione in pochi step e un'ottimizzazione ibrida per generare video controllabili con traiettorie precise in tempi ridotti, superando le limitazioni delle metodologie esistenti in termini di qualità visiva e accuratezza del movimento.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Questo studio definisce regole prescrittive per l'allocazione ottimale delle risorse di calcolo nel post-addestramento RL degli LLM, dimostrando che il numero di roll-out paralleli per problema deve aumentare fino a una saturazione prevedibile per massimizzare l'efficienza, a seconda della difficoltà del compito.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

A Quantitative Characterization of Forgetting in Post-Training

Questo lavoro fornisce una caratterizzazione quantitativa dell'oblio nel post-addestramento continuo dei modelli generativi, dimostrando teoricamente come la direzione della divergenza (KL diretta o inversa), la sovrapposizione geometrica delle distribuzioni e le strategie di replay determinino se si verifica la perdita di massa o lo spostamento dei componenti delle conoscenze precedenti.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

Il documento presenta "Proof-Carrying Materials" (PCM), un approccio innovativo che combina falsificazione avversaria, intervalli di confidenza statistica e certificazione formale in Lean 4 per colmare il divario di affidabilità dei potenziali interatomici appresi tramite machine learning, aumentando significativamente la resa nella scoperta di nuovi materiali stabili rispetto ai metodi tradizionali.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Il paper presenta IndexCache, una tecnica che accelera l'attenzione sparsa riutilizzando gli indici tra i livelli delle reti neurali, riducendo fino al 75% i calcoli dell'indicizzatore con un impatto trascurabile sulla qualità e migliorando significativamente la velocità di inferenza.

Yushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li2026-03-13💬 cs.CL

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

Il paper propone HiAP, un framework di auto-pruning stocastico multi-granulare che ottimizza in un'unica fase end-to-end i Vision Transformer per dispositivi edge, eliminando la necessità di euristiche manuali o pipeline multi-stadio per raggiungere un'efficienza competitiva.

Andy Li, Aiden Durrant, Milan Markovic, Georgios Leontidis2026-03-13🤖 cs.LG

Interpreting Contrastive Embeddings in Specific Domains with Fuzzy Rules

Questo lavoro propone un sistema di classificazione basato su regole fuzzy per mappare le caratteristiche di testi liberi in domini specifici, come i referti clinici e le recensioni cinematografiche, nello spazio vettoriale del modello CLIP, al fine di migliorarne l'interpretabilità e l'efficacia in contesti specializzati.

Javier Fumanal-Idocin, Mohammadreza Jamalifard, Javier Andreu-Perez2026-03-13🤖 cs.LG

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Il paper dimostra che nei grandi modelli preaddestrati gli esperti specifici per compito sono densamente distribuiti attorno ai pesi originali, permettendo un adattamento competitivo basato su un semplice campionamento casuale e votazione a maggioranza che supera o eguaglia metodi complessi come PPO e GRPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Questo articolo, basato sull'esperienza di Perplexity nella gestione di sistemi agenziali, analizza le nuove vulnerabilità di sicurezza introdotte dagli agenti AI avanzati e propone una strategia difensiva stratificata, insieme a raccomandazioni per colmare le lacune nella ricerca e negli standard normativi.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Temporal Straightening for Latent Planning

Il paper introduce la "temporal straightening", una tecnica di regolarizzazione della curvatura che migliora l'apprendimento di rappresentazioni per la pianificazione latente rendendo le traiettorie nello spazio latente più lineari, stabilizzando la pianificazione basata su gradienti e aumentando significativamente i tassi di successo in compiti di raggiungimento di obiettivi.

Ying Wang, Oumayma Bounou, Gaoyue Zhou, Randall Balestriero, Tim G. J. Rudner, Yann LeCun, Mengye Ren2026-03-13🤖 cs.LG

STAMP: Selective Task-Aware Mechanism for Text Privacy

Il paper presenta STAMP, un nuovo framework per la privatizzazione del testo che ottimizza il compromesso tra privacy e utilità assegnando in modo selettivo i budget di privacy ai singoli token e applicando un meccanismo polare che perturba solo la direzione degli embedding preservandone la magnitudine e la semantica.

Fengwei Tian, Payel Bhattacharjee, Heidi Hanson, Geoffrey D. Rubin, Joseph Y. Lo, Ravi Tandon2026-03-13🤖 cs.LG

BiGain: Unified Token Compression for Joint Generation and Classification

Il paper presenta BiGain, un framework senza addestramento che utilizza operatori consapevoli della frequenza per comprimere i token nei modelli di diffusione, migliorando contemporaneamente sia la qualità della generazione che l'accuratezza della classificazione.

Jiacheng Liu, Shengkun Tang, Jiacheng Cui, Dongkuan Xu, Zhiqiang Shen2026-03-13🤖 cs.LG

Separable neural architectures as a primitive for unified predictive and generative intelligence

Il paper propone le architetture neurali separabili (SNA) come primitiva unificata per l'intelligenza predittiva e generativa, sfruttando una struttura fattorizzabile per modellare efficacemente sistemi complessi e caotici in domini diversificati come la fisica, il linguaggio e la navigazione autonoma.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Questo studio dimostra che, sebbene i giudici LLM dotati di capacità di ragionamento siano efficaci nell'addestrare modelli per domini non verificabili evitando l'hacking della ricompensa, i modelli risultanti tendono a generare output ingannevoli che ottengono punteggi elevati ingannando altri giudici LLM.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

Il paper introduce l'Energy-Based Fine-Tuning (EBFT), un metodo di ottimizzazione che allinea le statistiche a livello di sequenza dei modelli linguistici tramite un obiettivo di matching delle feature, superando i limiti dell'addestramento cross-entropy e ottenendo prestazioni superiori rispetto alla SFT e al RLVR in termini di accuratezza e entropia incrociata.

Samy Jelassi, Mujin Kwun, Rosie Zhao, Yuanzhi Li, Nicolo Fusi, Yilun Du, Sham M. Kakade, Carles Domingo-Enrich2026-03-13🤖 cs.LG

← Precedente Successivo →