cs.LG articoli | Gist.Science

EUBRL: Epistemic Uncertainty Directed Bayesian Reinforcement Learning

Il paper propone EUBRL, un algoritmo di apprendimento per rinforzo bayesiano che utilizza l'incertezza epistemica per guidare l'esplorazione, garantendo ottimalità teorica e prestazioni superiori in termini di efficienza dei campioni su MDP a orizzonte infinito con ricompense sparse.

Jianfei Ma, Wee Sun Lee2026-03-03🤖 cs.LG

SoFlow: Solution Flow Models for One-Step Generative Modeling

Il paper presenta SoFlow, un framework per la generazione in un singolo passo che, grazie a una nuova funzione di perdita di coerenza della soluzione che evita il calcolo del prodotto vettore-Jacobiano, supera le prestazioni dei modelli MeanFlow su ImageNet 256x256.

Tianze Luo, Haotian Yuan, Zhuang Liu2026-03-03🤖 cs.LG

Dynamic Tool Dependency Retrieval for Efficient Function Calling

Il documento presenta DTDR, un metodo di recupero dinamico delle dipendenze degli strumenti che, condizionandosi sia alla query iniziale che al contesto di esecuzione in evoluzione, supera i limiti dei recuperatori statici migliorando significativamente l'accuratezza e l'efficienza degli agenti di chiamata di funzioni.

Bhrij Patel, Davide Belli, Amir Jalalirad + 3 more2026-03-03🤖 cs.LG

RMAAT: Astrocyte-Inspired Memory Compression and Replay for Efficient Long-Context Transformers

Il documento presenta RMAAT, un'architettura Transformer ispirata alle funzioni degli astrociti che combina compressione della memoria adattiva e ricorsione segmentata per superare la complessità quadratica dell'attenzione e abilitare l'elaborazione efficiente di contesti lunghi.

Md Zesun Ahmed Mia, Malyaban Bal, Abhronil Sengupta2026-03-03🤖 cs.AI

Aligned explanations in neural networks

Il paper introduce i PiNets, un framework di deep learning basato sul principio di leggibilità del modello, che garantisce allineamento esplicativo assicurando che le spiegazioni riflettano direttamente il processo decisionale del modello piuttosto che fungere da razionalizzazioni, ottenendo al contempo fedeltà in termini di significatività, robustezza e sufficienza.

Corentin Lobet, Francesca Chiaromonte2026-03-03📊 stat

AgentOCR: Reimagining Agent History via Optical Self-Compression

Il paper introduce AgentOCR, un framework che ottimizza l'efficienza dei token e della memoria negli agenti LLM trasformando la cronologia delle interazioni in immagini compatte, implementando una cache ottica segmentata per evitare ridondanze e un meccanismo di auto-compressione adattiva che mantiene oltre il 95% delle prestazioni riducendo il consumo di token del 50%.

Lang Feng, Fuchao Yang, Feng Chen + 5 more2026-03-03🤖 cs.AI

TP-Blend: Textual-Prompt Attention Pairing for Precise Object-Style Blending in Diffusion Models

Il paper presenta TP-Blend, un framework leggero e senza addestramento che combina due prompt testuali distinti per fondere con precisione un nuovo oggetto e uno stile in modelli di diffusione, utilizzando i moduli CAOF e SASF per preservare la coerenza geometrica e la texture dettagliata.

Xin Jin, Yichuan Zhong, Yapeng Tian2026-03-03🤖 cs.AI

Silence the Judge: Reinforcement Learning with Self-Verifier via Latent Geometric Clustering

Il paper presenta Latent-GRPO, un framework che sfrutta le proprietà geometriche dello spazio latente per generare ricompense intrinseche continue tramite l'algoritmo IRCE, eliminando la dipendenza da verificatori esterni costosi e raddoppiando la velocità di addestramento rispetto ai metodi basati su GRPO.

Nonghai Zhang, Weitao Ma, Zhanyu Ma + 5 more2026-03-03💬 cs.CL

Counterfactual Explanations on Robust Perceptual Geodesics

Il paper introduce le Perceptual Counterfactual Geodesics (PCG), un metodo che genera spiegazioni controfattuali tracciando geodetiche su una varietà Riemanniana percepita, garantendo così transizioni semanticamente valide e robuste che superano le limitazioni delle metriche di distanza tradizionali.

Eslam Zaher, Maciej Trzaskowski, Quan Nguyen + 1 more2026-03-03🤖 cs.LG

LLAMA LIMA: A Living Meta-Analysis on the Effects of Generative AI on Learning Mathematics

Questo studio presenta una meta-analisi dinamica (LIMA) che, aggiornandosi continuamente secondo le linee guida PRISMA-LSR e applicando un modello bayesiano, evidenzia un effetto positivo delle intelligenze artificiali generative sull'apprendimento della matematica (g = 0,42) basato su 21 ricerche, pur sottolineando la necessità di ulteriori evidenze data la vasta intervallo di credibilità.

Anselm Strohmaier, Samira Bödefeld, Oliver Straser + 1 more2026-03-03🤖 cs.LG

Analysis of Shuffling Beyond Pure Local Differential Privacy

Questo articolo supera i limiti dell'analisi basata sul parametro $\varepsilon_0$ per la privacy differenziale locale pura, introducendo un nuovo indice di shuffling derivato dalla divergenza blanket che permette di caratterizzare l'amplificazione della privacy per meccanismi più generali come la Gaussiana, fornendo al contempo un algoritmo FFT efficiente per il calcolo numerico della privacy in scenari finiti.

Shun Takagi, Seng Pei Liew2026-03-03🔢 math

Domain Expansion: A Latent Space Construction Framework for Multi-Task Learning

Il paper presenta "Domain Expansion", un framework che risolve il collasso delle rappresentazioni latenti nel multi-task learning assegnando ciascun obiettivo a un sottospazio ortogonale tramite un meccanismo di pooling innovativo, garantendo così un spazio latente stabile, interpretabile e composizionale.

Chi-Yao Huang, Khoa Vo, Aayush Atul Verma + 2 more2026-03-03🤖 cs.LG

Sparse clustering via the Deterministic Information Bottleneck algorithm

Il paper presenta un framework basato sul principio dell'Information Bottleneck deterministico che risolve le sfide del clustering su dati sparsi, permettendo un'assegnazione congiunta di pesi alle feature e di cluster, come dimostrato su dati sintetici e reali di genetica.

Efthymios Costa, Ioanna Papatsouma, Angelos Markos2026-03-03📊 stat

GNN Explanations that do not Explain and How to find Them

Questo lavoro evidenzia come le spiegazioni fornite dalle Reti Neurali su Grafi auto-spiegabili (SE-GNN) possano essere fuorvianti e non correlate alla logica di inferenza del modello, introducendo una nuova metrica di fedeltà in grado di rilevare tali fallimenti sia in contesti malevoli che naturali.

Steve Azzolin, Stefano Teso, Bruno Lepri + 2 more2026-03-03🤖 cs.AI

Reward Models Inherit Value Biases from Pretraining

Lo studio dimostra che i modelli di ricompensa ereditano pregiudizi di valore dal loro modello linguistico preaddestrato, mostrando preferenze sistematiche per l'«agenzia» o la «comunione» in base alla base utilizzata, il che sottolinea l'importanza cruciale della fase di preaddestramento e della scelta del modello di base per l'allineamento ai valori umani.

Brian Christian, Jessica A. F. Thompson, Elle Michelle Yang + 4 more2026-03-03💬 cs.CL

When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Questo lavoro introduce il benchmark CAAD-3K e un nuovo framework di apprendimento della compatibilità condizionale basato su rappresentazioni visione-linguaggio per affrontare l'individuazione di anomalie contestuali, superando i limiti degli approcci tradizionali che considerano l'anomalia come una proprietà intrinseca indipendente dal contesto.

Shashank Mishra, Didier Stricker, Jason Rambach2026-03-03🤖 cs.LG

Decoupled Diffusion Sampling for Inverse Problems on Function Spaces

Il paper propone il Decoupled Diffusion Inverse Solver (DDIS), un framework generativo efficiente nei dati che risolve i problemi inversi delle PDE disaccoppiando l'apprendimento del prior dei coefficienti dalla modellazione esplicita dell'operatore fisico, ottenendo così prestazioni superiori rispetto ai modelli congiunti, specialmente in scenari con dati limitati.

Thomas Y. L. Lin, Jiachen Yao, Lufang Chiang + 2 more2026-03-03🔢 math

Gradient-Aligned Calibration for Post-Training Quantization of Diffusion Models

Questo articolo propone un metodo innovativo di quantizzazione post-allenamento per i modelli di diffusione che, assegnando pesi ottimali ai campioni di calibrazione per allineare i gradienti tra i diversi passi temporali, supera le limitazioni delle tecniche esistenti e migliora significativamente l'efficienza e le prestazioni del modello.

Dung Anh Hoang, Cuong Pham anh Trung Le, Jianfei Cai + 1 more2026-03-03🤖 cs.LG

Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Il paper presenta VDR-Bench, un nuovo benchmark di 2.000 istanze progettato per valutare in modo realistico le capacità di ricerca visiva e testuale dei modelli linguistici multimodali, superando le limitazioni degli attuali dataset e proponendo un flusso di lavoro a più round con ritaglio dell'immagine per migliorare le prestazioni di recupero visivo.

Yu Zeng, Wenxuan Huang, Zhen Fang + 14 more2026-03-03💬 cs.CL

Learning to Explore with Parameter-Space Noise: A Deep Dive into Parameter-Space Noise for Reinforcement Learning with Verifiable Rewards

Il paper introduce PSN-RLVR, un metodo che supera i limiti esplorativi del Reinforcement Learning con Ricompense Verificabili (RLVR) applicando rumore nello spazio dei parametri dei modelli LLM, integrato con campionamento per importanza tronco e un adattatore di rumore in tempo reale, per migliorare significativamente le prestazioni di ragionamento matematico su larga scala.

Bizhe Bai, Xinyue Wang, Peng Ye + 1 more2026-03-03🤖 cs.AI

← Precedente Successivo →