cs.AI articoli | Gist.Science

Safe Transformer: An Explicit Safety Bit For Interpretable And Controllable Alignment

Il paper propone "Safe Transformer", un approccio modulare che inserisce un bit di sicurezza esplicito e interpretabile all'interno dei modelli linguistici pre-addestrati per garantire un allineamento controllabile e trasparente, ottenendo prestazioni di sicurezza superiori rispetto ai metodi tradizionali con un fine-tuning leggero.

Jingyuan Feng, Andrew Gambardella, Gouki Minegishi, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo2026-03-10🤖 cs.LG

Don't Freeze, Don't Crash: Extending the Safe Operating Range of Neural Navigation in Dense Crowds

Questo lavoro propone un approccio di apprendimento per rinforzo che, grazie a una codifica delle osservazioni invariante alla densità e a un addestramento randomizzato, permette a un agente di navigare in folle dense con generalizzazione zero-shot, evitando sia il congelamento tipico dei metodi analitici sia i crash dei metodi basati sull'apprendimento tradizionali.

Jiefu Zhang, Yang Xu, Vaneet Aggarwal2026-03-10🤖 cs.LG

Calibrated Credit Intelligence: Shift-Robust and Fair Risk Scoring with Bayesian Uncertainty and Gradient Boosting

Il documento presenta Calibrated Credit Intelligence (CCI), un framework di valutazione del rischio creditizio che combina reti neurali bayesiane, gradient boosting vincolato alla parità e una strategia di fusione adattiva per garantire previsioni accurate, ben calibrate ed eque anche in presenza di cambiamenti distributivi nel tempo.

Srikumar Nayak2026-03-10🤖 cs.LG

Agent Hunt: Bounty Based Collaborative Autoformalization With LLM Agents

Il paper presenta "Agent Hunt", un esperimento che utilizza un mercato simulato basato su ricompense per coordinare agenti LLM nella formalizzazione collaborativa e decentralizzata della topologia algebrica all'interno di un ambiente di dimostrazione interattiva.

Chad E. Brown, Cezary Kaliszyk, Josef Urban2026-03-10💻 cs

Rank-Factorized Implicit Neural Bias: Scaling Super-Resolution Transformer with FlashAttention

Il paper propone la Rank-Factorized Implicit Neural Bias (RIB), un metodo che sostituisce il bias posizionale relativo per abilitare FlashAttention nei Transformer per la super-risoluzione, permettendo di scalare le finestre di attenzione fino a 96×96 e ottenendo prestazioni superiori con tempi di addestramento e inferenza significativamente ridotti.

Dongheon Lee, Seokju Yun, Jaegyun Im, Youngmin Ro2026-03-10🤖 cs.LG

ResearchEnvBench: Benchmarking Agents on Environment Synthesis for Research Code Execution

Il paper introduce ResearchEnvBench, un nuovo benchmark che valuta la capacità degli agenti autonomi di sintetizzare ambienti di esecuzione per codice di ricerca, rivelando significative lacune nelle attuali soluzioni nello sviluppo di dipendenze e nell'adattamento delle versioni software.

Yubang Wang, Chenxi Zhang, Bowen Chen, Zezheng Huai, Zihao Dai, Xinchi Chen, Yuxin Wang, Yining Zheng, Jingjing Gong, Xipeng Qiu2026-03-10💻 cs

ViroGym: Realistic Large-Scale Benchmarks for Evaluating Viral Proteins

Il paper introduce ViroGym, un benchmark completo che valuta l'efficacia dei modelli linguistici proteici nel prevedere gli effetti delle varianti virali e nel guidare la selezione razionale di antigeni, dimostrando come l'integrazione di dati sperimentali *in vitro* migliori la previsione delle mutazioni circolanti dominanti.

Yichen Zhou, Jonathan Golob, Amir Karimi, Stefan Bauer, Patrick Schwab2026-03-10💻 cs

Heterogeneous Decentralized Diffusion Models

Il paper presenta un framework decentralizzato efficiente per l'addestramento di modelli di diffusione eterogenei che, combinando obiettivi di training diversi (DDPM e Flow Matching) e un'architettura ottimizzata, riduce drasticamente i requisiti computazionali e di dati rispetto alle approcci precedenti mantenendo o migliorando la qualità e la diversità dei risultati.

Zhiying Jiang, Raihan Seraj, Marcos Villagra, Bidhan Roy2026-03-10🤖 cs.LG

Improved Constrained Generation by Bridging Pretrained Generative Models

Il paper propone un framework di generazione vincolata che, tramite il fine-tuning di modelli generativi preaddestrati, permette di produrre campioni realistici all'interno di regioni fattibili complesse e non lineari, come quelle tipiche della guida autonoma e del controllo robotico, trovando un nuovo compromesso tra soddisfazione dei vincoli e qualità del campionamento.

Xiaoxuan Liang, Saeid Naderiparizi, Yunpeng Liu, Berend Zwartsenberg, Frank Wood2026-03-10🤖 cs.LG

Stabilizing Reinforcement Learning for Diffusion Language Models

Il paper propone StableDRL, un nuovo algoritmo di ottimizzazione della politica che risolve il collasso del reward nei modelli linguistici a diffusione applicando tecniche di clipping incondizionato e auto-normalizzazione per stabilizzare l'addestramento basato su GRPO.

Jianyuan Zhong, Kaibo Wang, Ding Ding, Zijin Feng, Haoli Bai, Yang Xiang, Jiacheng Sun, Qiang Xu2026-03-10🤖 cs.LG

Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection

Il paper introduce DIRECTER, un metodo di steering delle attivazioni che migliora il rispetto delle istruzioni nei LLM modulando dinamicamente la forza di steering tramite un ciclo di decodifica guidato dalla plausibilità, riducendo così il rischio di oversteering senza compromettere la qualità del testo.

Minjae Kang, Jaehyung Kim2026-03-10🤖 cs.LG

ButterflyViT: 354 $\times$ Expert Compression for Edge Vision Transformers

Il paper introduce ButterflyViT, un metodo che riduce la memoria necessaria per i Vision Transformers basati su Mixture of Experts su dispositivi edge fino a 354 volte trattando gli esperti come rotazioni geometriche di un substrato condiviso anziché come matrici indipendenti, ottenendo una scalabilità sub-lineare con perdita di accuratezza trascurabile.

Aryan Karmore2026-03-10💻 cs

Property-driven Protein Inverse Folding With Multi-Objective Preference Alignment

Il paper presenta ProtAlign, un framework di allineamento delle preferenze multi-obiettivo che ottimizza i modelli di ripiegamento inverso pre-addestrati per bilanciare la progettabilità strutturale con proprietà di sviluppabilità come solubilità e stabilità, superando i limiti degli approcci esistenti senza richiedere un'esperta conoscenza di dominio.

Xiaoyang Hou, Junqi Liu, Chence Shi, Xin Liu, Zhi Yang, Jian Tang2026-03-10🤖 cs.LG

Robotic Foundation Models for Industrial Control: A Comprehensive Survey and Readiness Assessment Framework

Questo articolo presenta un'analisi esaustiva dei modelli fondazionali robotici per il controllo industriale, proponendo un framework di valutazione basato su 149 criteri che rivela come la maturità attuale di tali modelli sia limitata e frammentata, sottolineando la necessità di integrare sistematicamente sicurezza, fattibilità in tempo reale e robustezza per un'adozione industriale efficace.

David Kube, Simon Hadwiger, Tobias Meisen2026-03-10💻 cs

XMACNet: An Explainable Lightweight Attention based CNN with Multi Modal Fusion for Chili Disease Classification

Il paper presenta XMACNet, una rete neurale convoluzionale leggera e spiegabile che integra l'attenzione automatica e la fusione multimodale di immagini RGB e indici di vegetazione per classificare con alta precisione le malattie delle piante di peperoncino, superando i modelli esistenti e abilitando il deployment su dispositivi edge.

Tapon Kumer Ray, Rajkumar Y, Shalini R, Srigayathri K, Jayashree S, Lokeswari P2026-03-10💻 cs

Learning Unbiased Cluster Descriptors for Interpretable Imbalanced Concept Drift Detection

Il documento presenta l'approccio ICD3, un metodo interpretabile e robusto che rileva il drift concettuale nei dati sbilanciati identificando e monitorando indipendentemente i concetti minoritari per superare l'effetto di mascheramento causato dalle classi dominanti.

Yiqun Zhang, Zhanpei Huang, Mingjie Zhao, Chuyao Zhang, Yang Lu, Yuzhu Ji, Fangqing Gu, An Zeng2026-03-10🤖 cs.LG

Enhancing SHAP Explainability for Diagnostic and Prognostic ML Models in Alzheimer Disease

Questo studio propone un quadro di spiegabilità multi-livello per validare la robustezza e la coerenza delle spiegazioni SHAP nei modelli di machine learning per la diagnosi e la prognosi dell'Alzheimer, dimostrando che i marcatori cognitivi e funzionali rimangono indicatori stabili e affidabili attraverso diverse fasi della malattia.

Pablo Guillén, Enrique Frias-Martinez2026-03-10🤖 cs.LG

Gradient-based Nested Co-Design of Aerodynamic Shape and Control for Winged Robots

Questo articolo presenta un framework di co-progettazione annidata basato su gradienti che ottimizza congiuntamente la forma aerodinamica e il pianificatore di controllo per robot alati, utilizzando un modello surrogato neurale per gestire condizioni di flusso complesse e migliorare le prestazioni in compiti dinamici come l'atterraggio e l'aggancio rispetto ai metodi sequenziali tradizionali.

Daniele Affinita, Mingda Xu, Benoît Valentin Gherardi, Pascal Fua2026-03-10💻 cs

Diversity-Aware Adaptive Collocation for Physics-Informed Neural Networks via Sparse QUBO Optimization and Hybrid Coresets

Questo lavoro propone un metodo di collocation adattivo e consapevole della diversità per le Physics-Informed Neural Networks, formulando la selezione dei punti come un problema di ottimizzazione QUBO sparsa basato su grafi e coreset ibridi per migliorare l'efficienza e l'accuratezza nella risoluzione di equazioni differenziali.

Hadi Salloum, Maximilian Mifsud Bonici, Sinan Ibrahim, Pavel Osinenko, Alexei Kornaev2026-03-10🤖 cs.LG

Failure Detection in Chemical Processes using Symbolic Machine Learning: A Case Study on Ethylene Oxidation

Questo studio dimostra che l'apprendimento simbolico, grazie alla sua capacità di generare modelli predittivi interpretabili e basati su regole, supera i metodi tradizionali di intelligenza artificiale nel rilevamento dei guasti nei processi chimici, offrendo una soluzione sicura e trasparente anche in assenza di dati reali di fallimento.

Julien Amblard, Niklas Groll, Matthew Tait, Mark Law, Gürkan Sin, Alessandra Russo2026-03-10🤖 cs.LG

← Precedente Successivo →

cs.AI