cs.LG articoli | Gist.Science

Maximum Principle of Optimal Probability Density Control

Questo articolo sviluppa un quadro teorico generale per il controllo ottimale della densità di probabilità su spazi di misura, stabilendo un principio di massimo e un'equazione di Hamilton-Jacobi-Bellman per problemi multi-agente su larga scala, e propone un algoritmo numerico scalabile basato su reti neurali profonde per affrontarli.

Nathan Gaby, Xiaojing Ye2026-03-10🤖 cs.LG

VISTA: Vision-Language Inference for Training-Free Stock Time-Series Analysis

Il paper introduce VISTA, un nuovo framework senza addestramento che sfrutta i modelli visione-linguaggio per prevedere i prezzi delle azioni combinando rappresentazioni testuali e grafiche, ottenendo prestazioni superiori rispetto ai metodi tradizionali e basati solo su testo.

Tina Khezresmaeilzadeh, Parsa Razmara, Seyedarmin Azizi, Mohammad Erfan Sadeghi, Erfan Baghaei Potraghloo2026-03-10🤖 cs.LG

Stronger Enforcement of Instruction Hierarchy via Augmented Intermediate Representations

Questo paper propone un nuovo metodo di difesa contro gli attacchi di iniezione di prompt nei modelli linguistici su larga scala, che inietta segnali gerarchici di istruzione direttamente nelle rappresentazioni intermedie della rete tramite embedding addestrabili, ottenendo una riduzione significativa del tasso di successo degli attacchi rispetto alle tecniche esistenti senza compromettere l'utilità del modello.

Sanjay Kariyappa, G. Edward Suh2026-03-10🤖 cs.LG

OCN: Effectively Utilizing Higher-Order Common Neighbors for Better Link Prediction

Il paper propone OCN, un nuovo metodo per la previsione dei collegamenti che combina ortogonalizzazione e normalizzazione per eliminare la ridondanza e mitigare il sovra-lisciamento nei vicini comuni di ordine superiore, ottenendo prestazioni superiori rispetto agli stati dell'arte sui benchmark più popolari.

Juntong Wang, Xiyuan Wang, Muhan Zhang2026-03-10🤖 cs.LG

ViTaPEs: Visuotactile Position Encodings for Cross-Modal Alignment in Multimodal Transformers

Il paper introduce ViTaPEs, un'architettura transformer che utilizza codifiche posizionali visuo-tattili a due stadi per allineare le modalità in modo efficace, superando gli stati dell'arte in compiti di riconoscimento e generalizzazione zero-shot senza dipendere da modelli pre-addestrati.

Fotios Lygerakis, Ozan Özdenizci, Elmar Rückert2026-03-10🤖 cs.LG

LoFT: Low-Rank Adaptation That Behaves Like Full Fine-Tuning

Il paper introduce LoFT, un metodo di adattamento a basso rango che allinea le dinamiche interne dell'ottimizzatore con quelle del full fine-tuning proiettando i momenti di Adam nello stesso sottospazio, riducendo così il divario prestazionale rispetto ai metodi standard come LoRA senza aumentare i costi di inferenza.

Nurbek Tastan, Stefanos Laskaridis, Martin Takac, Karthik Nandakumar, Samuel Horvath2026-03-10🤖 cs.LG

Rethinking Continual Learning with Progressive Neural Collapse

Il paper propone Progressive Neural Collapse (ProNC), un nuovo framework per l'apprendimento continuo che supera i limiti degli ETF globali fissi espandendo progressivamente il target geometrico per includere nuove classi, riducendo così l'oblio catastrofico e migliorando le prestazioni rispetto agli approcci esistenti.

Zheng Wang, Wanhao Yu, Li Yang, Sen Lin2026-03-10🤖 cs.LG

Adaptive Correction for Ensuring Conservation Laws in Neural Operators

Questo lavoro propone un nuovo approccio di correzione adattiva e plug-and-play che garantisce il rispetto rigoroso delle leggi di conservazione nei risultati degli operatori neurali, migliorando al contempo accuratezza, stabilità e flessibilità rispetto alle tecniche esistenti.

Chaoyu Liu, Yangming Li, Zhongying Deng, Chris Budd, Carola-Bibiane Schönlieb2026-03-10🤖 cs.LG

ActivePusher: Active Learning and Planning with Residual Physics for Nonprehensile Manipulation

Il paper presenta ActivePusher, un framework innovativo che combina modelli di fisica residua e apprendimento attivo basato sull'incertezza per migliorare l'efficienza dei dati e l'affidabilità della pianificazione a lungo termine nella manipolazione non prensile.

Zhuoyun Zhong, Seyedali Golestaneh, Constantinos Chamzas2026-03-10🤖 cs.LG

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Il paper introduce MMTU, un nuovo benchmark su larga scala con oltre 28.000 domande su 25 compiti reali, progettato per valutare in modo completo le capacità di comprensione, ragionamento e manipolazione delle tabelle da parte dei modelli linguistici, rivelando che anche i modelli più avanzati attuali hanno ancora margini significativi di miglioramento in questo dominio.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. Jagadish2026-03-10🤖 cs.LG

Leveraging chaotic transients in the training of artificial neural networks

Questo studio dimostra che impostare i tassi di apprendimento in una regione di caos transitorio, dove l'ottimizzazione bilancia esplorazione e sfruttamento, accelera il training delle reti neurali riducendo il tempo necessario per raggiungere un'accuratezza accettabile su diversi compiti e architetture.

Pedro Jiménez-González, Miguel C. Soriano, Lucas Lacasa2026-03-10🤖 cs.LG

EROICA: Online Performance Troubleshooting for Large-scale Model Training

Il paper presenta EROICA, il primo sistema di risoluzione dei problemi di prestazioni online per l'addestramento di modelli su larga scala, che combina profilazione dettagliata e osservabilità differenziale per diagnosticare con successo sia problemi hardware che software su cluster di GPU di produzione.

Yu Guan, Zhiyu Yin, Haoyu Chen, Sheng Cheng, Chaojie Yang, Kun Qian, Tianyin Xu, Pengcheng Zhang, Yang Zhang, Hanyu Zhao, Yong Li, Wei Lin, Dennis Cai, Ennan Zhai2026-03-10🤖 cs.LG

BemaGANv2: Discriminator Combination Strategies for GAN-based Vocoders in Long-Term Audio Generation

Il documento presenta BemaGANv2, un vocoder basato su GAN avanzato per la generazione audio a lungo termine che integra innovazioni architetturali come il modulo AMP e una valutazione sistematica di diverse strategie di combinazione dei discriminatori, tra cui il nuovo Multi-Envelope Discriminator, per migliorare coerenza temporale e fedeltà del suono.

Taesoo Park, Mungwi Jeong, Mingyu Park, Narae Kim, Junyoung Kim, Mujung Kim, Jisang Yoo, Hoyun Lee, Sanghoon Kim, Soonchul Kwon2026-03-10🤖 cs.LG

Co-LoRA: Collaborative Model Personalization on Heterogeneous Multi-Modal Clients

Il paper propone Co-LoRA, un metodo di apprendimento federato personalizzato che affronta l'eterogeneità sia dei dati che delle architetture dei modelli attraverso una strategia di aggregazione consapevole della rilevanza del compito e un modulo dimensionale-invariante, validato su un nuovo benchmark multi-modale che dimostra prestazioni superiori rispetto agli stati dell'arte.

Minhyuk Seo, Taeheon Kim, Hankook Lee, Jonghyun Choi, Tinne Tuytelaars2026-03-10🤖 cs.LG

Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback

Il paper propone due algoritmi efficienti, Slate-GLU-OFU e Slate-GLM-TS, per il problema dei banditi contestuali a slate logistici che, combinando una pianificazione locale con un apprendimento globale, raggiungono un basso rimpianto e una complessità computazionale ridotta, dimostrando efficacia sia in ambienti sintetici che nell'ottimizzazione di esempi in contesto per modelli linguistici.

Tanmay Goyal, Gaurav Sinha2026-03-10🤖 cs.LG

Sharpness-Aware Machine Unlearning

Questo lavoro dimostra che l'ottimizzazione Sharpness-Aware (SAM) migliora l'oblio delle macchine riducendo l'interferenza tra segnali di mantenimento e di rimozione, e propone il metodo "Sharp MinMax" che combina SAM e massimizzazione della sharpness per ottenere un disaccoppiamento superiore tra i dati da mantenere e quelli da dimenticare, garantendo una maggiore robustezza agli attacchi di inferenza di appartenenza.

Haoran Tang, Rajiv Khanna2026-03-10🤖 cs.LG

Kolmogorov-Arnold Energy Models: Fast, Interpretable Generative Modeling

Il documento introduce il Kolmogorov-Arnold Energy Model (KAEM), un nuovo approccio generativo che combina velocità, interpretabilità ed efficienza inferenziale grazie a una struttura latente univariata basata sul teorema di rappresentazione di Kolmogorov-Arnold, superando i compromessi tra modelli latenti semplici e campionatori iterativi complessi.

Prithvi Raj2026-03-10🤖 cs.LG

From Semantic To Instance: A Semi-Self-Supervised Learning Approach

Il paper propone un approccio di apprendimento semi-auto-supervisionato basato su GLMask, che trasforma la segmentazione semantica in quella istanziale con annotazioni minime, ottenendo risultati all'avanguardia nella segmentazione delle spighe di grano e miglioramenti significativi sul dataset COCO.

Keyhan Najafian, Farhad Maleki, Lingling Jin, Ian Stavness2026-03-10🤖 cs.LG

Adaptive Batch-Wise Sample Scheduling for Direct Preference Optimization

Questo lavoro presenta SamS, un algoritmo efficiente che ottimizza l'adeguamento dei modelli linguistici alle preferenze umane attraverso una selezione dinamica e adattiva dei campioni di addestramento a livello di batch durante l'Ottimizzazione Diretta delle Preferenze (DPO), migliorando significativamente le prestazioni senza modificare l'algoritmo di base.

Zixuan Huang, Yikun Ban, Lean Fu, Xiaojie Li, Zhongxiang Dai, Jianxin Li, Deqing Wang2026-03-10🤖 cs.LG

DemoDiffusion: One-Shot Human Imitation using pre-trained Diffusion Policy

Il paper presenta DemoDiffusion, un metodo che permette ai robot di imitare un'unica dimostrazione umana per eseguire compiti di manipolazione, combinando la retargeting cinematica con una politica di diffusione pre-addestrata per ottenere un tasso di successo significativamente superiore rispetto alle tecniche esistenti senza necessità di dati umani-robot accoppiati o addestramento specifico.

Sungjae Park, Homanga Bharadhwaj, Shubham Tulsiani2026-03-10🤖 cs.LG

← Precedente Successivo →