cs.LG articoli | Gist.Science

Enhancing Authorship Attribution with Synthetic Paintings

Questo studio dimostra che l'integrazione di immagini sintetiche generate tramite DreamBooth e Stable Diffusion con dati reali migliora l'accuratezza e la generalizzazione dei modelli di attribuzione dell'autore nelle opere d'arte, superando le limitazioni legate alla scarsità di dati.

Clarissa Loures, Caio Hosken, Luan Oliveira + 2 more2026-03-05🤖 cs.LG

A Constrained RL Approach for Cost-Efficient Delivery of Latency-Sensitive Applications

Il documento propone un approccio di apprendimento per rinforzo vincolato (CDRL) formulato come processo decisionale di Markov vincolato, che garantisce la consegna tempestiva dei pacchetti per applicazioni sensibili alla latenza minimizzando al contempo i costi di allocazione delle risorse, superando così le limitazioni delle tecniche di ottimizzazione stocastica tradizionali.

Ozan Aygün, Vincenzo Norman Vitale, Antonia M. Tulino + 3 more2026-03-05🤖 cs.LG

Out-of-distribution transfer of PDE foundation models to material dynamics under extreme loading

Questo studio valuta l'efficacia del trasferimento fuori distribuzione di modelli fondazionali per le equazioni differenziali parziali (POSEIDON e MORPH) nella previsione dello stato terminale di dinamiche materiali sotto carichi estremi, confrontando l'adattamento fine e l'addestramento da zero su regimi dominati da discontinuità come le interfacce multistrato e la frattura dinamica.

Mahindra Rautela, Alexander Most, Siddharth Mansingh + 9 more2026-03-05🤖 cs.LG

Efficient Refusal Ablation in LLM through Optimal Transport

Questo lavoro introduce un framework basato sul trasporto ottimale che, trasformando l'intera distribuzione delle attivazioni dannose per allinearle a quelle innocue e intervenendo selettivamente su strati specifici, supera i metodi di jailbreaking esistenti in termini di successo e preservazione delle capacità del modello, rivelando al contempo che i meccanismi di rifiuto sono localizzati piuttosto che distribuiti.

Geraldin Nanfack, Eugene Belilovsky, Elvis Dohmatob2026-03-05🤖 cs.AI

RoboCasa365: A Large-Scale Simulation Framework for Training and Benchmarking Generalist Robots

Il paper presenta RoboCasa365, un ampio framework di simulazione basato su 365 compiti quotidiani in 2.500 ambienti cucina diversi e oltre 2.200 ore di dati dimostrativi, progettato per valutare e migliorare le politiche dei robot generalisti attraverso esperimenti sistematici su apprendimento multi-task, modelli fondazionali e apprendimento continuo.

Soroush Nasiriany, Sepehr Nasiriany, Abhiram Maddukuri + 1 more2026-03-05🤖 cs.AI

Dissecting Quantization Error: A Concentration-Alignment Perspective

Il paper introduce le trasformazioni Concentration-Alignment (CAT), un metodo leggero che migliora la quantizzazione dei modelli linguistici ottimizzando sia la concentrazione che l'allineamento dei dati per massimizzare il rapporto segnale-rumore di quantizzazione e ridurre l'errore di precisione.

Marco Federici, Boris van Breugel, Paul Whatmough + 1 more2026-03-05🤖 cs.AI

Robust Unscented Kalman Filtering via Recurrent Meta-Adaptation of Sigma-Point Weights

Questo lavoro presenta il Meta-Adaptive UKF (MA-UKF), un framework che utilizza l'apprendimento meta-recorrente per adattare dinamicamente i pesi dei punti sigma, superando i limiti dei filtri tradizionali e garantendo una stima dello stato più robusta e accurata in presenza di rumore non gaussiano e dinamiche variabili.

Kenan Majewski, Michał Modzelewski, Marcin Żugaj + 1 more2026-03-05🤖 cs.LG

Dual-Modality Multi-Stage Adversarial Safety Training: Robustifying Multimodal Web Agents Against Cross-Modal Attacks

Il paper propone il framework DMAST, un metodo di addestramento avversario multi-stadio e dual-modale che formalizza l'interazione agente-attaccante come un gioco a somma zero per rafforzare la sicurezza e l'efficienza degli agenti web multimodali contro attacchi cross-modali coerenti.

Haoyu Liu, Dingcheng Li, Lukas Rutishauser + 1 more2026-03-05🤖 cs.AI

Low-Resource Guidance for Controllable Latent Audio Diffusion

Il paper presenta un metodo a basso costo computazionale per il controllo di modelli di diffusione audio latente, basato su Latent-Control Heads (LatCH) e Selective TFG, che permette di regolare parametri come intensità, tono e battito senza richiedere un addestramento estensivo o costose retropropagazioni durante l'inferenza.

Zachary Novack, Zack Zukowski, CJ Carr + 6 more2026-03-05🤖 cs.AI

Robustness of Agentic AI Systems via Adversarially-Aligned Jacobian Regularization

Il paper introduce l'Adversarially-Aligned Jacobian Regularization (AAJR), un metodo che garantisce la robustezza dei sistemi di IA agenti controllando la sensibilità solo lungo le direzioni di attacco avversario, superando così le limitazioni delle tecniche globali e migliorando la stabilità del training minimax.

Furkan Mumcu, Yasin Yilmaz2026-03-05🤖 cs.AI

Turning Trust to Transactions: Tracking Affiliate Marketing and FTC Compliance in YouTube's Influencer Economy

Questo studio analizza un vasto dataset di video YouTube per rivelare la diffusione del marketing di affiliazione e la scarsa conformità alle normative FTC, dimostrando come le funzionalità standardizzate della piattaforma possano migliorare la trasparenza e raccomandando una collaborazione tra regolatori, partner e piattaforma per rafforzare la fiducia nell'economia degli influencer.

Chen Sun, Yash Vekaria, Zubair Shafiq + 1 more2026-03-05🤖 cs.LG

ZipMap: Linear-Time Stateful 3D Reconstruction with Test-Time Training

Il paper introduce ZipMap, un modello feed-forward stato-dipendente che, grazie all'addestramento al momento del test, ricostruisce scene 3D da grandi collezioni di immagini in tempo lineare con una velocità superiore di oltre 20 volte rispetto ai metodi attuali, mantenendo al contempo un'accuratezza pari o superiore.

Haian Jin, Rundi Wu, Tianyuan Zhang + 4 more2026-03-05🤖 cs.AI

SELDON: Supernova Explosions Learned by Deep ODE Networks

Il paper presenta SELDON, un nuovo modello di autoencoder variazionale a tempo continuo basato su reti neurali ODE, progettato per analizzare in modo efficiente e interpretabile le curve di luce sparse e irregolari delle supernove, permettendo previsioni in millisecondi per la priorizzazione delle osservazioni astronomiche future.

Jiezhong Wu, Jack O'Brien, Jennifer Li + 6 more2026-03-05🔭 astro-ph

Accurate and Efficient Hybrid-Ensemble Atmospheric Data Assimilation in Latent Space with Uncertainty Quantification

Il paper presenta HLOBA, un metodo innovativo di assimilazione dati atmosferici che opera in uno spazio latente appreso tramite autoencoder, riuscendo a combinare accuratezza, efficienza computazionale e quantificazione dell'incertezza superando i limiti dei metodi tradizionali e basati sul machine learning.

Hang Fan, Juan Nathaniel, Yi Xiao + 5 more2026-03-05🤖 cs.LG

SimpliHuMoN: Simplifying Human Motion Prediction

Il paper presenta SimpliHuMoN, un modello transformer semplice ed efficace che unifica la previsione di traiettorie e pose umane in un unico approccio end-to-end, ottenendo risultati all'avanguardia su diversi dataset di benchmark.

Aadya Agrawal, Alexander Schwing2026-03-05🤖 cs.LG

Loss Barcode: A Topological Measure of Escapability in Loss Landscapes

Questo articolo introduce il "TO-score", una misura topologica basata sui barcode della funzione di perdita che quantifica l'escapabilità dei minimi locali, rivelando come le ostruzioni topologiche diminuiscono all'aumentare di profondità e larghezza della rete e come la struttura dei barcode sia correlata all'errore di generalizzazione.

Serguei Barannikov, Daria Voronkova, Alexander Mironenko + 4 more2026-03-04🤖 cs.LG

Thought Flow Nets: From Single Predictions to Trains of Model Thought

Questo articolo introduce i "Thought Flow Nets", un metodo ispirato alla dialettica hegeliana che permette ai modelli di generare una sequenza di pensieri auto-correttivi per migliorare le prestazioni nelle risposte a domande e la percezione umana rispetto alle previsioni tradizionali a output singolo.

Hendrik Schuff, Heike Adel, Ngoc Thang Vu2026-03-04🤖 cs.LG

Is Attention always needed? A Case Study on Language Identification from Speech

Questo studio presenta un modello di identificazione linguistica (LID) basato su CRNN che, utilizzando coefficienti MFCC, raggiunge un'accuratezza superiore al 98% su tredici lingue indiane e dimostra elevata robustezza al rumore, sollevando al contempo interrogativi sulla necessità universale dei meccanismi di attenzione in tali compiti.

Atanu Mandal, Santanu Pal, Indranil Dutta + 2 more2026-03-04⚡ eess

Network Topology Optimization via Deep Reinforcement Learning

Il paper propone DRL-GS, un innovativo algoritmo di apprendimento per rinforzo profondo che integra un verificatore, una rete neurale su grafi e un agente di ricerca per ottimizzare in modo efficiente ed efficace la topologia di rete, superando i limiti dei metodi euristici tradizionali.

Zhuoran Li, Xing Wang, Ling Pan + 5 more2026-03-04🤖 cs.AI

Importance Weighting Correction of Regularized Least-Squares for Target Shift

Questo lavoro analizza la regressione kernel ridge con ponderazione dell'importanza sotto lo shift del target, dimostrando che tale approccio mantiene le stesse garanzie di convergenza del caso senza shift a condizione che i pesi siano corretti, mentre una loro imprecisione genera un bias irreducibile, e fornisce limiti minimax ottimali e implicazioni per la classificazione.

Davit Gogolashvili2026-03-04📊 stat

← Precedente Successivo →