cs.AI articoli | Gist.Science

Toward Epistemic Stability: Engineering Consistent Procedures for Industrial LLM Hallucination Reduction

Questo studio presenta e valuta cinque strategie di ingegneria dei prompt per ridurre le allucinazioni nei modelli linguistici industriali, dimostrando che l'uso di un registro dati potenziato (M4) garantisce risultati coerenti in tutte le prove, mentre le versioni rivisitate di altre metodologie, come la decomposizione dei prompt (M2), mostrano miglioramenti significativi verso procedure più stabili e affidabili.

Brian Freeman, Adam Kicklighter, Matt Erdman, Zach Gordon2026-03-12🤖 cs.AI

Revisiting Sharpness-Aware Minimization: A More Faithful and Effective Implementation

Il paper propone XSAM, una nuova implementazione della Sharpness-Aware Minimization che supera le limitazioni delle versioni attuali offrendo una stima più accurata della direzione di massima curvatura e un migliore sfruttamento delle informazioni di gradino multi-step, garantendo così prestazioni superiori con un costo computazionale trascurabile.

Jianlong Chen, Zhiming Zhou2026-03-12🤖 cs.LG

InFusionLayer: a CFA-based ensemble tool to generate new classifiers for learning and modeling

Il documento introduce InFusionLayer, un nuovo strumento Python open-source basato sull'analisi di fusione combinatoria (CFA) che integra funzioni di caratteristiche punteggio-rank e diversità cognitiva per ottimizzare l'apprendimento di ensemble in problemi di classificazione multiclasse, dimostrando la sua efficacia su vari dataset di visione artificiale e la compatibilità con framework come PyTorch, TensorFlow e Scikit-learn.

Eric Roginek, Jingyan Xu, D. Frank. Hsu2026-03-12🤖 cs.LG

Where Do Flow Semantics Reside? A Protocol-Native Tabular Pretraining Paradigm for Encrypted Traffic Classification

Il paper propone FlowSem-MAE, un paradigma di pre-addestramento tabulare nativo dei protocolli che supera i limiti dei modelli basati su byte sequenziali per la classificazione del traffico cifrato, preservando le semantiche dei campi del protocollo e ottenendo prestazioni superiori con meno dati etichettati.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

Training Language Models via Neural Cellular Automata

Questo lavoro propone l'uso di automi cellulari neurali per generare dati sintetici non linguistici che, utilizzati in una fase di pre-pre-addestramento, migliorano l'efficienza e le prestazioni dei modelli linguistici su compiti di ragionamento, superando anche l'addestramento su grandi quantità di testo naturale.

Dan Lee, Seungwook Han, Akarsh Kumar, Pulkit Agrawal2026-03-12🤖 cs.LG

SBOMs into Agentic AIBOMs: Schema Extensions, Agentic Orchestration, and Reproducibility Evaluation

Questo articolo introduce gli AIBOM (Artificial Intelligence Bills of Materials) agentici, un'estensione dinamica degli SBOM basata su un'architettura multi-agente che integra monitoraggio del runtime, ricostruzione dell'ambiente e ragionamento sulle vulnerabilità per garantire una provenienza del software riproducibile e contestualizzata.

Petar Radanliev, Carsten Maple, Omar Santos, Kayvan Atefi2026-03-12🤖 cs.AI

Tool Receipts, Not Zero-Knowledge Proofs: Practical Hallucination Detection for AI Agents

Il paper presenta NabaOS, un framework di verifica leggero ispirato all'epistemologia indiana Nyaya Shastra che rileva le allucinazioni degli agenti AI in tempo reale tramite ricevute di esecuzione crittograficamente firmate, offrendo un compromesso superiore tra latenza e copertura rispetto alle prove a conoscenza zero.

Abhinaba Basu2026-03-12🤖 cs.AI

Multi-Agent Memory from a Computer Architecture Perspective: Visions and Challenges Ahead

Questo articolo di posizione inquadra la memoria dei sistemi multi-agente come un problema di architettura informatica, proponendo una gerarchia a tre livelli e identificando la coerenza della memoria come la sfida aperta più critica per garantire sistemi scalabili e affidabili.

Zhongming Yu, Naicheng Yu, Hejia Zhang, Wentao Ni, Mingrui Yin, Jiaying Yang, Yujie Zhao, Jishen Zhao2026-03-12🤖 cs.AI

The Epistemic Support-Point Filter: Jaynesian Maximum Entropy Meets Popperian Falsification

Questo articolo dimostra che il Filtro del Punto di Supporto Epistemico (ESPF) è il filtro ottimale unico che sintetizza il principio di massima entropia di Jaynes nella propagazione e la falsificazione popperiana nell'aggiornamento, minimizzando l'ignoranza epistemica nel caso peggiore senza ricorrere a prior soggettivi, come confermato da validazioni numeriche nel tracciamento orbitale.

Moriba Kemessia Jah2026-03-12🔢 math

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

Il paper introduce HTMuon, un metodo di ottimizzazione basato sulla teoria della regolarizzazione auto-organizzata a code pesanti che migliora l'algoritmo Muon correggendo spettri pesanti e riducendo la perplessità nel pre-addestramento di LLM e nella classificazione di immagini.

Tianyu Pang, Yujie Fang, Zihang Liu, Shenyang Deng, Lei Hsiung, Shuhua Yu, Yaoqing Yang2026-03-12🤖 cs.LG

ADVERSA: Measuring Multi-Turn Guardrail Degradation and Judge Reliability in Large Language Models

Il paper introduce ADVERSA, un framework di red-teaming automatizzato che misura il degrado continuo delle difese dei modelli linguistici durante interazioni multi-turno, rivelando che la maggior parte dei jailbreak avviene nelle prime fasi e fornendo una valutazione rigorosa dell'affidabilità dei giudici.

Harry Owiredu-Ashley2026-03-12🤖 cs.AI

Dissecting Chronos: Sparse Autoencoders Reveal Causal Feature Hierarchies in Time Series Foundation Models

Questo studio applica per la prima volta autoencoder sparsi al modello Chronos-T5, rivelando una gerarchia causale delle caratteristiche temporali in cui i livelli intermedi, dedicati alla rilevazione di cambiamenti bruschi, sono più critici per le previsioni rispetto ai livelli finali ricchi di concetti semantici.

Anurag Mishra2026-03-12🤖 cs.LG

Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation

Questo studio analizza i limiti dei modelli linguistici nella generazione automatica di patch di sicurezza per vulnerabilità Java, rivelando che, sebbene preservino spesso la funzionalità, falliscono prevalentemente nel comprendere la semantica corretta delle riparazioni, ottenendo un basso punteggio di sicurezza che ne richiede una validazione rigorosa prima del dispiegamento.

Amir Al-Maamari2026-03-12🤖 cs.AI

Marginals Before Conditionals

Il paper descrive un compito minimo che dimostra come le reti neurali apprendano inizialmente la distribuzione marginale, stabilizzandosi su un plateau di errore pari a log K, prima di subire una transizione collettiva verso l'apprendimento completo della condizionale, un processo governato dal rumore del gradiente e preceduto dall'assemblaggio interno di un meccanismo di routing.

Mihir Sahasrabudhe2026-03-12🤖 cs.LG

TASER: Task-Aware Spectral Energy Refine for Backdoor Suppression in UAV Swarms Decentralized Federated Learning

Il paper propone TASER, un nuovo framework di difesa decentralizzato per sciami di UAV che sfrutta l'analisi della concentrazione spettrale dei gradienti per sopprimere efficacemente attacchi backdoor stealthy, superando i limiti dei metodi basati sul rilevamento degli outlier.

Sizhe Huang, Shujie Yang2026-03-12🤖 cs.AI

Amnesia: Adversarial Semantic Layer Specific Activation Steering in Large Language Models

Il documento presenta "Amnesia", un attacco avversario leggero che manipola gli stati interni dei transformer per aggirare i meccanismi di sicurezza dei modelli linguistici open-weight, permettendo loro di generare contenuti dannosi senza necessità di ulteriore addestramento.

Ali Raza, Gurang Gupta, Nikolay Matyunin, Jibesh Patra2026-03-12🤖 cs.AI

Digging Deeper: Learning Multi-Level Concept Hierarchies

Il paper introduce Multi-Level Concept Splitting (MLCS) e Deep-HiCEMs, un approccio che scopre gerarchie concettuali multi-livello partendo da supervisione di alto livello e permette interventi a diversi livelli di astrazione, superando i limiti dei modelli precedenti che gestivano solo gerarchie superficiali.

Oscar Hill, Mateo Espinosa Zarlenga, Mateja Jamnik2026-03-12🤖 cs.LG

KernelSkill: A Multi-Agent Framework for GPU Kernel Optimization

Il paper presenta KernelSkill, un framework multi-agente che migliora l'ottimizzazione dei kernel GPU sostituendo le euristiche implicite dei modelli linguistici con competenze esperte guidate dalla conoscenza e una memoria duale, ottenendo risultati superiori rispetto alle soluzioni precedenti.

Qitong Sun, Jun Han, Tianlin Li, Zhe Tang, Sheng Chen, Fei Yang, Aishan Liu, Xianglong Liu, Yang Liu2026-03-12🤖 cs.LG

ES-dLLM: Efficient Inference for Diffusion Large Language Models by Early-Skipping

Il paper presenta ES-dLLM, un framework di inferenza senza addestramento che accelera i modelli di linguaggio a diffusione (dLLM) saltando i token meno importanti nei livelli iniziali, ottenendo un significativo aumento della velocità di generazione senza compromettere la qualità.

Zijian Zhu, Fei Ren, Zhanhong Tan, Kaisheng Ma2026-03-12🤖 cs.LG

Multi-Stream Perturbation Attack: Breaking Safety Alignment of Thinking LLMs Through Concurrent Task Interference

Questo paper propone un attacco di perturbazione multi-stream che sfrutta l'interferenza tra compiti concorrenti per compromettere l'allineamento alla sicurezza dei modelli LLM in modalità "pensante", causando il collasso del processo di ragionamento e ottenendo tassi di successo elevati nelle evasioni di sicurezza.

Fan Yang2026-03-12🤖 cs.AI

← Precedente Successivo →