cs.AI articoli | Gist.Science

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainability

Il documento presenta la Sparse Isotonic Shapley Regression (SISR), un nuovo framework unificato per l'IA spiegabile che supera i limiti dell'additività e della densità dei valori Shapley tradizionali, apprendendo simultaneamente una trasformazione monotona non lineare e imponendo vincoli di sparsità per fornire attribuzioni robuste, efficienti e teoricamente fondate in scenari complessi.

Jialai She2026-03-10🤖 cs.LG

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

Il paper introduce il Parallel Decoder Transformer (PDT), un'architettura che trasforma la decomposizione di compiti paralleli da una strategia di prompting esterna a un meccanismo di coordinamento interno, permettendo a un modello linguistico congelato di generare flussi multipli sincronizzati attraverso una pianificazione latente e un protocollo di condizionamento speculativo.

Logan Robbins2026-03-10💬 cs.CL

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Questo lavoro introduce WildRoad, un nuovo dataset globale per strade off-road, e MaGRoad, un framework di estrazione basato su un ragionamento centrato sul percorso che supera i limiti dei metodi esistenti ottenendo prestazioni allo stato dell'arte e una maggiore efficienza.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

Il paper presenta SALVE, un quadro unificato che combina autoencoder sparsi e mappatura di salienza per scoprire, validare e controllare meccanicisticamente il comportamento delle reti neurali attraverso interventi precisi nello spazio dei pesi, garantendo sistemi di AI più trasparenti e controllabili.

Vegard Flovik2026-03-10🤖 cs.LG

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Questa survey propone un quadro unificato basato su quattro paradigmi per analizzare l'adattamento degli agenti AI post-pretraining, esaminando metodi di ottimizzazione, architetture di memoria e competenze sia per l'agente che per gli strumenti, al fine di confrontarne i compromessi e delineare le sfide future.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

Meta-RL Induces Exploration in Language Agents

Il paper presenta LaMer, un framework Meta-RL che permette agli agenti LLM di esplorare attivamente e adattarsi in tempo reale tramite riflessione, migliorando significativamente le prestazioni e la generalizzazione su compiti complessi rispetto alle tradizionali tecniche di apprendimento per rinforzo.

Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic2026-03-10🤖 cs.LG

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

Il paper introduce Re-Depth Anything, un framework di auto-supervisione a test-time che migliora l'estimazione della profondità monoculari fondendo modelli fondazionali con prior di diffusione su larga scala per affinare le mappe di profondità tramite ricreazione dell'illuminazione e Score Distillation Sampling, ottenendo risultati all'avanguardia senza richiedere etichette.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Questo studio dimostra che, nel contesto delle query Text-to-SQL su Google BigQuery, i modelli di ragionamento offrono un'efficienza dei costi superiore rispetto ai modelli non di ragionamento, poiché riducono significativamente il consumo di dati mantenendo un'accuratezza equivalente, mentre evidenzia che l'ottimizzazione della velocità non garantisce l'efficienza economica a causa di una debole correlazione tra tempo di esecuzione e costi cloud.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

Physics-Informed Neural Networks for Device and Circuit Modeling: A Case Study of NeuroSPICE

Il documento presenta NeuroSPICE, un framework basato su reti neurali informate dalla fisica che risolve le equazioni differenziali algebriche dei circuiti tramite minimizzazione del residuo, offrendo vantaggi unici per l'ottimizzazione del progetto e la simulazione di dispositivi emergenti non lineari rispetto ai metodi SPICE tradizionali.

Chien-Ting Tung, Chenming Hu2026-03-10🔬 physics.app-ph

Toward a Physical Theory of Intelligence

Il documento presenta il quadro teorico CCE (Conservation-Congruent Encoding), che unifica dissipazione termodinamica, misurazione quantistica e geometria dello spaziotempo in un modello fisico neutrale rispetto al substrato per definire l'intelligenza come un processo di estrazione di lavoro che rispetta i vincoli di conservazione.

Peter David Fagan2026-03-10💻 cs

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Questo studio introduce un framework di valutazione legibile agli operatori per la previsione del carico della rete elettrica, dimostrando che i modelli basati su spazi di stato (SSM) con integrazione meteorologica mirata offrono una maggiore affidabilità operativa rispetto alle metriche di accuratezza tradizionali, mentre evidenzia la necessità di vincoli specifici per evitare il rischio di "sicurezza finta" derivante da previsioni probabilistiche eccessivamente conservative.

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Il paper presenta DrivingGen, il primo benchmark completo per i modelli di mondo generativi nella guida autonoma, che combina un dataset diversificato e nuove metriche per valutare realisticamente la coerenza temporale, la plausibilità delle traiettorie e il controllo, colmando le lacune delle valutazioni attuali e guidando lo sviluppo di simulatori affidabili.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

Il paper introduce Batch-of-Thought (BoT), un metodo senza addestramento che migliora il ragionamento dei modelli linguistici elaborando query correlate in batch per sfruttare segnali trasversali, identificare errori e ridurre i costi computazionali fino al 61%.

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal2026-03-10💻 cs

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

Il documento presenta NC-Bench, un nuovo benchmark teorico basato sul Framework di Conversazione Naturale dell'IBM che valuta la competenza conversazionale dei modelli linguistici su tre livelli (di base, con RAG e complesso) concentrandosi sulla struttura e sul flusso dell'interazione piuttosto che sui contenuti specifici.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Questo studio rivela come il predittore LAION-Aesthetics, ampiamente utilizzato per addestrare modelli di generazione di immagini, perpetui pregiudizi culturali e di genere attraverso un "sguardo algoritmico" che privilegia canoni estetici occidentali e maschili, escludendo altre prospettive e richiedendo un passaggio verso valutazioni più pluralistiche.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Questo paper introduce un'architettura di sicurezza per gli agenti di uso informatico basata sulla pianificazione "single-shot" e sull'isolamento strutturale, che garantisce l'integrità del flusso di controllo contro gli attacchi di iniezione di prompt e di deviazione dei rami, permettendo di conciliare sicurezza rigorosa e utilità operativa senza compromettere le prestazioni.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

Il paper presenta BoxMind, un sistema AI a ciclo chiuso che trasforma i dati video non strutturati in strategie tattiche ottimizzate per il pugilato, validato con successo durante le Olimpiadi del 2024 dove ha contribuito al successo storico della squadra nazionale cinese.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

Il paper propone MSAHG, un metodo di apprendimento su ipergrafi che, suddividendo i dati in scenari specifici e utilizzando sub-ipergrafi disaccoppiati, risolve i conflitti di mobilità tra turisti e locali per migliorare la raccomandazione del prossimo punto di interesse.

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

DevBench è un benchmark basato su dati reali di sviluppo che valuta le prestazioni dei modelli di linguaggio su compiti di completamento del codice, offrendo diagnosi dettagliate e metriche pratiche per guidare la selezione e il miglioramento dei modelli.

Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu2026-03-10🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Il paper presenta MAS-Orchestra, un framework di addestramento che ottimizza l'orchestrazione multi-agente tramite apprendimento per rinforzo e astrazione a funzioni, accompagnato da MASBENCH, un benchmark controllato che dimostra come i vantaggi dei sistemi multi-agente dipendano dalla struttura del compito e non siano universali, ottenendo al contempo miglioramenti significativi su diverse attività di ragionamento con un'efficienza superiore di 10 volte rispetto alle basi di riferimento.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

← Precedente Successivo →