cs.LG articoli | Gist.Science

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Questo articolo presenta FGO, un algoritmo di apprendimento per rinforzo che comprime in modo efficiente il ragionamento a catena di pensiero (CoT) nei modelli linguistici di grandi dimensioni, risolvendo al contempo le limitazioni di GRPO relative all'uso dei dati e al collasso dell'entropia senza compromettere le prestazioni.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Il paper presenta GOT-JEPA, un framework di pre-addestramento basato su un'architettura predittiva a embedding congiunto che migliora la generalizzazione e la gestione delle occlusioni nel tracciamento generico di oggetti, integrando un modulo chiamato OccuSolver per stimare la visibilità e affinare i modelli di tracciamento in ambienti dinamici.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

Il paper presenta LexiSafe, un framework di apprendimento per rinforzo offline sicuro che utilizza una gerarchia lessicografica per garantire la sicurezza e migliorare le prestazioni nei sistemi cyber-fisici, offrendo al contempo garanzie teoriche di complessità campionaria.

Hsin-Jung Yang, Zhanhong Jiang, Prajwal Koirala, Qisai Liu, Cody Fleming, Soumik Sarkar2026-03-12⚡ eess

ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

Il paper introduce ZACH-ViT, un Vision Transformer compatto per l'imaging medico che rimuove le codifiche posizionali e il token [CLS] per ottenere un'elaborazione permutazionale invariante, dimostrando prestazioni competitive in scenari con pochi dati e un vantaggio regime-dipendente che massimizza l'efficacia su dataset con layout spaziali meno informativi.

Athanasios Angelakis2026-03-12⚡ eess

Benchmarking Graph Neural Networks in Solving Hard Constraint Satisfaction Problems

Questo studio propone nuovi benchmark basati su problemi casuali per valutare le reti neurali su grafi (GNN) nella risoluzione di problemi di soddisfacimento di vincoli difficili, dimostrando che, nonostante le affermazioni di superiorità, gli algoritmi classici rimangono più efficaci.

Geri Skenderi, Lorenzo Buffoni, Francesco D'Amico, David Machado, Raffaele Marino, Matteo Negri, Federico Ricci-Tersenghi, Carlo Lucibello, Maria Chiara Angelini2026-03-12🔬 cond-mat

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Questo studio dimostra che gli analisti AI autonomi possono replicare a basso costo la diversità analitica umana, rivelando come le scelte metodologiche influenzino i risultati e proponendo nuove norme di trasparenza che includano la segnalazione multiverso e la divulgazione completa dei prompt.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

Active Value Querying to Minimize Additive Error in Subadditive Set Function Learning

Questo studio propone un approccio di interrogazione attiva per minimizzare l'errore additivo nell'apprendimento di funzioni di insieme subadditive, sviluppando metodi per ridurre la distanza tra le completazioni minime e massime in scenari offline e online e validando empiricamente tali algoritmi.

Martin Černý, David Sychrovský, Filip Úradník, Jakub Černý2026-03-12🤖 cs.LG

How Large Language Models Get Stuck: Early structure with persistent errors

Lo studio dimostra che i modelli linguistici di grandi dimensioni possono sviluppare errori persistenti durante l'addestramento a causa di pregiudizi statistici sui bigrammi che si consolidano nelle fasi iniziali, rendendo difficile correggere tali distorsioni anche con un'ulteriore formazione.

Alokesh Manna, William Snyder, Whitney Tabor2026-03-12💬 cs.CL

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Il paper introduce CARE, un framework agentico che migliora l'accountability clinica nel ragionamento medico multimodale decomponendo il compito in moduli specializzati per l'estrazione di evidenze visive e l'uso di ricompense verificabili, ottenendo prestazioni superiori rispetto agli stati dell'arte.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Il paper propone CFG-Ctrl, un quadro unificato che reinterpretando la Guida senza Classificatore (CFG) come un controllo sul flusso generativo, introduce la variante SMC-CFG basata sul controllo a modalità di scorrimento per risolvere problemi di instabilità e overshooting, garantendo una migliore allineamento semantico e convergenza in tempo finito su modelli di diffusione avanzati.

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Questo studio presenta la prima valutazione completa del fine-tuning efficiente dei parametri (PEFT) per l'analisi del codice multitasking, dimostrando che un singolo modulo PEFT condiviso può eguagliare o superare il fine-tuning completo offrendo un ottimo compromesso tra prestazioni e efficienza, pur essendo il successo dipendente da fattori come la stabilità del compito e la complementarità, e superando le capacità di modelli LLM generici di grandi dimensioni in compiti di analisi.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

Il paper propone il "Targeted Reasoning Unlearning" (TRU), un nuovo metodo che utilizza obiettivi di ragionamento espliciti per rimuovere in modo preciso e spiegabile conoscenze indesiderate dai modelli linguistici, preservando al contempo le loro capacità generali e migliorando la robustezza rispetto agli attacchi.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Il paper presenta MoE-SpAc, un framework di inferenza per modelli MoE su dispositivi edge eterogenei che sfrutta la Speculative Decoding come sensore predittivo per l'allocazione della memoria, ottenendo un significativo miglioramento delle prestazioni rispetto alle soluzioni esistenti.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Il paper propone un framework che ottimizza la trasformazione delle caratteristiche guidato dai modelli linguistici di grandi dimensioni attraverso un ciclo chiuso di evoluzione delle dimostrazioni e selezione della diversità, superando i limiti dei metodi esistenti e ottenendo prestazioni superiori su diversi benchmark tabulari.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Questo articolo presenta TAMUSA-Chat, un framework di ricerca per conversazioni basate su modelli linguistici su larga scala adattati a contesti istituzionali, che integra tecniche di affinamento supervisionato e generazione aumentata da recupero per garantire trasparenza, conformità normativa e pratiche di intelligenza artificiale responsabile.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Questo studio valuta la robustezza e la sicurezza pedagogica dei modelli linguistici offline per l'educazione alla lingua turca, rivelando che i modelli orientati al ragionamento nella fascia 8B-14B offrono il miglior compromesso tra costi e sicurezza, mentre la resistenza alle anomalie non dipende esclusivamente dalla scala del modello.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Questo studio teorico spiega i meccanismi alla base della comprensione semantica, dell'apprendimento in contesto (ICL) e del ragionamento a catena di pensiero (CoT) nei grandi modelli linguistici, dimostrando come questi fenomeni derivino dall'inferenza delle probabilità di transizione tra token, dalla riduzione dell'ambiguità del prompt e dalla decomposizione dei compiti complessi in sotto-problemi già appresi.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Questo paper presenta la creazione del dataset LatamQA, composto da oltre 26.000 domande e risposte multilingue derivate da Wikipedia e Wikidata, utilizzato per valutare e rivelare i pregiudizi culturali e le disparità linguistiche dei modelli linguistici su larga scala nei confronti delle diverse culture dell'America Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Il paper introduce SpreadsheetArena, una piattaforma per la valutazione tramite confronti ciechi delle prestazioni dei modelli linguistici nella generazione end-to-end di fogli di calcolo, evidenziando come le preferenze varino in base al contesto e come i modelli attuali faticino a rispettare le best practice di dominio specifico.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Probing the Limits of the Lie Detector Approach to LLM Deception

Questo studio dimostra che i modelli linguistici possono ingannare senza mentire producendo affermazioni fuorvianti ma vere, rivelando così un limite critico degli attuali "rilevatori di bugie" basati su sonde di verità che non riescono a identificare tali forme di inganno non menzognero.

Tom-Felix Berger2026-03-12💬 cs.CL

← Precedente Successivo →