cs.AI articoli | Gist.Science

Towards Trustworthy Legal AI through LLM Agents and Formal Reasoning

Il paper presenta L4L, un framework centrato sul risolutore che integra agenti LLM specializzati e verifica formale tramite solutori SMT per garantire che le decisioni legali siano logicamente allineate alle leggi statutarie e forniscano giustificazioni verificabili.

Linze Chen, Yufan Cai, Zhe Hou + 1 more2026-03-06💻 cs

Steering Awareness: Models Can Be Trained to Detect Activation Steering

Lo studio dimostra che i modelli linguistici possono essere addestrati a rilevare con alta precisione l'iniezione di vettori di steering, sfatando l'ipotesi che tale intervento rimanga impercettibile e rivelando che la capacità di rilevamento non garantisce affatto una maggiore robustezza comportamentale contro le manipolazioni.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Il paper introduce DPAC, un metodo di controllo avversariale per il campionamento diffusion che, proiettando i gradienti avversariali sullo spazio tangente definito dalla geometria del punteggio generativo, minimizza la divergenza KL nel percorso e preserva la qualità dei campioni riducendo la distanza di Wasserstein e il FID.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Deep FlexQP: Accelerated Nonlinear Programming via Deep Unfolding

Il paper propone Deep FlexQP, un risolutore di programmazione quadratica convessa basato su un'architettura di deep unfolding che garantisce la fattibilità e accelera significativamente la risoluzione di problemi di ottimizzazione non lineare, superando gli stati dell'arte in termini di velocità e successo in applicazioni come l'ottimizzazione di traiettorie e i filtri di sicurezza predittivi.

Alex Oshin, Rahul Vodeb Ghosh, Augustinos D. Saravanos + 1 more2026-03-06🔢 math

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

Il paper introduce Guided Flow Policy (GFP), un nuovo approccio per l'apprendimento per rinforzo offline che combina un policy a flusso multi-step con un attore distillato per concentrarsi sull'imitazione selettiva delle azioni ad alto valore, ottenendo prestazioni all'avanguardia su numerosi benchmark.

Franki Nguimatsia Tiofack, Théotime Le Hellard, Fabian Schramm + 2 more2026-03-06💻 cs

Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Questo studio dimostra che l'aggiunta di un segnale di ricompensa per l'ordine canonico delle azioni, combinato con una ricompensa di compito durante il post-training con RL su indovinelli Zebra, migliora le prestazioni del modello rispetto all'ottimizzazione basata solo sul compito, guidando il modello verso traiettorie canoniche senza modificare i dati supervisionati o l'architettura.

Prakhar Gupta, Vaibhav Gupta2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Il paper propone un framework di apprendimento multi-perdita per il riconoscimento delle emozioni nel parlato che integra un metodo di mixup adattivo all'energia e un modulo di attenzione a livello di frame, ottenendo prestazioni all'avanguardia su quattro dataset principali.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

Sparse Attention Post-Training for Mechanistic Interpretability

Questo articolo presenta un metodo di post-addestramento che rende l'attenzione dei transformer estremamente sparsa senza comprometterne le prestazioni, rivelando circuiti semplificati e migliorando l'interpretabilità meccanica dei modelli fino a 7 miliardi di parametri.

Florent Draye, Anson Lei, Hsiao-Ru Pan + 2 more2026-03-06💻 cs

ClinNoteAgents: An LLM Multi-Agent System for Predicting and Interpreting Heart Failure 30-Day Readmission from Clinical Notes

Il paper presenta ClinNoteAgents, un sistema multi-agente basato su LLM che trasforma le note cliniche non strutturate in rappresentazioni interpretabili per prevedere con alta accuratezza il rischio di riammissione ospedaliera a 30 giorni per insufficienza cardiaca, riducendo al contempo la dipendenza da dati strutturati e annotazioni manuali.

Rongjia Zhou, Chengzhuo Li, Carl Yang + 1 more2026-03-06💻 cs

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Il paper presenta InternGeometry, un agente basato su un modello linguistico potenziato da un meccanismo di memoria dinamica e da un'apprendimento per rinforzo a complessità crescente (CBRL), che risolve il 88% dei problemi di geometria delle Olimpiadi Internazionali di Matematica con una frazione minima dei dati di addestramento rispetto agli approcci precedenti, superando anche la media dei vincitori di medaglia d'oro.

Haiteng Zhao, Junhao Shen, Yiming Zhang + 7 more2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Il paper presenta ReFusion, un modello di linguaggio basato sulla diffusione che supera i limiti computazionali e di coerenza dei modelli precedenti integrando la riorganizzazione della sequenza nel framework dell'attenzione causale, ottenendo così un decodifica parallelo con caching KV completo che garantisce sia un significativo aumento delle prestazioni rispetto ai modelli diffusion esistenti, sia un vantaggio di velocità rispetto ai modelli autoregressivi tradizionali.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

HydroGEM: A Self Supervised Zero Shot Hybrid TCN Transformer Foundation Model for Continental Scale Streamflow Quality Control

Il paper presenta HydroGEM, un modello fondazionale ibrido TCN-Transformer auto-supervisionato progettato per il controllo di qualità dello scarico fluviale su scala continentale, che supera i metodi esistenti nella rilevazione e ricostruzione delle anomalie grazie all'addestramento su milioni di sequenze pulite e alla capacità di generalizzare attraverso confini nazionali.

Ijaz Ul Haq, Byung Suk Lee, Julia N. Perdrial + 1 more2026-03-06💻 cs

RePo: Language Models with Context Re-Positioning

Il paper presenta RePo, un nuovo meccanismo che riduce il carico cognitivo estraneo nei modelli linguistici di grandi dimensioni riorganizzando dinamicamente le posizioni dei token per migliorare l'apprendimento in contesto, specialmente in scenari con contesti rumorosi, dati strutturati e lunghe sequenze.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

Il paper presenta MCP-SafetyBench, un benchmark completo basato su server MCP reali che valuta la sicurezza dei modelli linguistici di grandi dimensioni in scenari multi-turno e multi-dominio, rivelando che tutti i modelli testati rimangono vulnerabili agli attacchi MCP e sottolineando l'urgenza di sviluppare difese più robuste.

Xuanjun Zong, Zhiqi Shen, Lei Wang + 2 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

Il paper introduce FluenceFormer, un framework basato su trasformatori che risolve il problema inverso della pianificazione radioterapica attraverso una regressione a due stadi e una funzione di perdita fisica, ottenendo risultati superiori rispetto ai metodi convenzionali nella predizione delle mappe di fluenza.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Yukthi Opus: A Multi-Chain Hybrid Metaheuristic for Large-Scale NP-Hard Optimization

Il documento presenta Yukthi Opus, un metaeuristico ibrido multi-catena che integra MCMC, ricerca locale e ricottura simulata per ottimizzare problemi NP-difficili su larga scala rispettando vincoli di budget di valutazione.

SB Danush Vikraman, Hannah Abigail, Prasanna Kesavraj + 1 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Questo studio dimostra che l'uso di strumenti esterni e pianificazione durante l'inferenza migliora significativamente l'accuratezza dei grandi modelli linguistici in compiti di ragionamento strutturato come Event-QA, ma comporta costi e latenze elevati che spesso non giustificano i benefici in scenari più semplici come la generazione di risposte persuasive, evidenziando la necessità di scelte strategiche basate su costi e complessità del compito.

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Interleaved Tool-Call Reasoning for Protein Function Understanding

Il paper introduce PFUA, un agente di ragionamento potenziato da strumenti che supera i limiti del ragionamento testuale puro nella previsione della funzione delle proteine integrando strumenti computazionali e conoscenze biologiche esterne, ottenendo un miglioramento delle prestazioni medio del 103% su quattro benchmark.

Chuanliu Fan, Zicheng Ma, Huanran Meng + 6 more2026-03-06💻 cs

Identifying Good and Bad Neurons for Task-Level Controllable LLMs

Il paper presenta NeuronLLM, un nuovo framework che identifica le "neuroni buoni" e "cattivi" nei Large Language Models tramite apprendimento contrastivo e il principio di antagonismo funzionale, superando i limiti dei metodi esistenti per un controllo più efficace a livello di compito.

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Il paper introduce l'ottimizzatore SSO, un algoritmo parallelo efficiente che impone vincoli spettrali rigorosi sia sui pesi che sugli aggiornamenti per garantire una stabilità e una convergenza superiori rispetto ad AdamW e Muon durante l'addestramento su larga scala di modelli linguistici di grandi dimensioni.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

← Precedente Successivo →