cs.AI articoli | Gist.Science

ResWM: Residual-Action World Model for Visual RL

Il paper introduce ResWM, un modello del mondo basato su azioni residue che, riformulando il controllo come aggiustamenti incrementali e utilizzando un codificatore delle differenze di osservazione, migliora significativamente l'efficienza dei campioni, la stabilità e la fluidità del controllo rispetto ai metodi tradizionali nell'apprendimento per rinforzo visivo.

Jseen Zhang, Gabriel Adineera, Jinzhou Tan, Jinoh Kim2026-03-13🤖 cs.AI

Task-Conditioned Routing Signatures in Sparse Mixture-of-Experts Transformers

Questo lavoro introduce le "routing signatures" per dimostrare che i meccanismi di routing nelle architetture Sparse Mixture-of-Experts non sono semplici bilanciamenti, ma catturano una struttura sensibile al compito, permettendo una classificazione accurata dei task basata esclusivamente sui pattern di attivazione degli esperti.

Mynampati Sri Ranganadha Avinash2026-03-13🤖 cs.LG

WebWeaver: Breaking Topology Confidentiality in LLM Multi-Agent Systems with Stealthy Context-Based Inference

Il paper presenta WebWeaver, un framework di attacco che infere in modo stealthy la topologia completa dei sistemi multi-agente basati su LLM compromettendo un singolo agente arbitrario e sfruttando contesti e meccanismi di diffusione, superando così i limiti delle metodologie precedenti che dipendono da assunzioni irrealistiche.

Zixun Xiong, Gaoyi Wu, Lingfeng Yao, Miao Pan, Xiaojiang Du, Hao Wang2026-03-13🤖 cs.AI

Procedural Fairness via Group Counterfactual Explanation

Questo lavoro introduce GCIG, un framework di regolarizzazione che promuove l'equità procedurale nei modelli di machine learning garantendo la stabilità delle spiegazioni tra diversi gruppi protetti, riducendo così le disparità nelle attribuzioni senza compromettere le prestazioni predittive.

Gideon Popoola, John Sheppard2026-03-13🤖 cs.LG

Attention Gathers, MLPs Compose: A Causal Analysis of an Action-Outcome Circuit in VideoViT

Il paper utilizza tecniche di interpretabilità meccanica per dimostrare che i modelli VideoViT sviluppano un circuito causale ridondante e sofisticato, in cui le attention heads raccolgono evidenze e i blocchi MLP compongono concetti, rivelando una "conoscenza nascosta" sulle conseguenze delle azioni umane che va oltre il semplice compito di classificazione.

Sai V R Chereddy2026-03-13🤖 cs.LG

PACED: Distillation at the Frontier of Student Competence

Il paper introduce Paced, un framework di distillazione che ottimizza l'efficienza computazionale concentrando l'addestramento sulla "zona di sviluppo prossimale" del modello studente, dove il rapporto segnale-rumore dei gradienti è massimo, utilizzando una funzione di ponderazione basata sulla distribuzione Beta per massimizzare i guadagni nelle prestazioni senza dimenticare le conoscenze pregresse.

Yuanda Xu, Hejian Sang, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-13🤖 cs.AI

Representation Finetuning for Continual Learning

Il paper introduce CoRe, un nuovo framework per l'apprendimento continuo che sposta il paradigma di affinamento dallo spazio dei pesi a quello delle rappresentazioni, intervenendo in un sottospazio lineare a basso rango per garantire stabilità e plasticità con maggiore efficienza e interpretabilità rispetto ai metodi esistenti.

Haihua Luo, Xuming Ran, Tommi Kärkkäinen, Huiyan Xue, Zhonghua Chen, Qi Xu, Fengyu Cong2026-03-13🤖 cs.LG

A Simple Efficiency Incremental Learning Framework via Vision-Language Model with Nonlinear Multi-Adapters

Il paper presenta SimE, un framework semplice ed efficiente per l'apprendimento incrementale basato su modelli visione-linguaggio e adattatori, che sfrutta una correlazione non lineare tra il numero di connessioni adattive e le prestazioni per superare i metodi tradizionali senza necessità di archiviare dati precedenti.

Haihua Luo, Xuming Ran, Jiangrong Shen, Timo Hämäläinen, Zhonghua Chen, Qi Xu, Fengyu Cong2026-03-13🤖 cs.AI

Measuring AI Agents' Progress on Multi-Step Cyber Attack Scenarios

Lo studio valuta le capacità di attacco informatico autonomo di modelli AI avanzati su scenari multi-step, rivelando che le prestazioni crescono in modo log-lineare con la potenza di calcolo e che le generazioni successive di modelli superano significativamente quelle precedenti, completando fino a 22 dei 32 passaggi in un attacco di rete aziendale.

Linus Folkerts, Will Payne, Simon Inman, Philippos Giavridis, Joe Skinner, Sam Deverett, James Aung, Ekin Zorer, Michael Schmatz, Mahmoud Ghanem, John Wilkinson, Alan Steer, Vy Hong, Jessica Wang2026-03-13🤖 cs.AI

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Il paper propone MDER-DR, un framework di Question Answering basato su Knowledge Graph che combina un nuovo approccio di indicizzazione (MDER) e un meccanismo di recupero (DR) per superare i limiti dei sistemi RAG tradizionali, ottenendo miglioramenti significativi nelle risposte a domande multi-hop senza richiedere una traversa esplicita del grafo.

Riccardo Campi, Nicolò Oreste Pinciroli Vago, Mathyas Giudici, Marco Brambilla, Piero Fraternali2026-03-13💬 cs.CL

Markovian Generation Chains in Large Language Models

Questo studio definisce le "catene di generazione markoviane" per analizzare come i testi evolvono quando elaborati iterativamente da modelli linguistici di grandi dimensioni, rivelando che il processo può portare sia alla convergenza verso un insieme ricorrente limitato sia alla produzione di nuove frasi, a seconda di parametri come la temperatura e l'input iniziale.

Mingmeng Geng, Amr Mohamed, Guokan Shang, Michalis Vazirgiannis, Thierry Poibeau2026-03-13💬 cs.CL

Reversible Lifelong Model Editing via Semantic Routing-Based LoRA

Il paper propone SoLA, un framework basato su LoRA e routing semantico che abilita l'editing di modelli linguistici su larga scala in modo preciso, efficiente e reversibile, risolvendo i problemi di deriva semantica e oblio catastrofico tipici degli aggiornamenti continui.

Haihua Luo, Xuming Ran, Tommi Kärkkäinen, Zhonghua Chen, Jiangrong Shen, Qi Xu, Fengyu Cong2026-03-13🤖 cs.AI

Mind the Sim2Real Gap in User Simulation for Agentic Tasks

Questo studio evidenzia il divario Sim2Real nella simulazione degli utenti per compiti agenziali, dimostrando attraverso un rigoroso confronto con 451 partecipanti umani che i simulatori basati su LLM tendono a essere eccessivamente cooperativi e uniformi, producendo feedback distorti che sovrastimano le prestazioni degli agenti rispetto al comportamento reale.

Xuhui Zhou, Weiwei Sun, Qianou Ma, Yiqing Xie, Jiarui Liu, Weihua Du, Sean Welleck, Yiming Yang, Graham Neubig, Sherry Tongshuang Wu, Maarten Sap2026-03-13🤖 cs.AI

Artificial Intelligence for Sentiment Analysis of Persian Poetry

Questo studio dimostra che i modelli linguistici avanzati, in particolare GPT-4o, possono analizzare efficacemente la poesia persiana di Rumi e Parvin E'tesami, rivelando che le opere di Rumi esprimono sentimenti più felici e utilizzano una maggiore varietà di metri rispetto a quelle di Parvin, offrendo così un approccio oggettivo e privo di bias agli studi semantici computazionali.

Arash Zargar, Abolfazl Moshiri, Mitra Shafaei, Shabnam Rahimi-Golkhandan, Mohamad Tavakoli-Targhi, Farzad Khalvati2026-03-13💬 cs.CL

The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning

Il paper propone un framework dinamico per valutare la robustezza dell'oblio nei modelli linguistici su larga scala, rivelando che le attuali metriche di valutazione sono fragili di fronte a query complesse e multi-hop che riescono a recuperare informazioni presumibilmente rimosse, a causa della persistenza di percorsi computazionali alternativi non interrotti dai metodi di unlearning.

Raj Sanjay Shah, Jing Huang, Keerthiram Murugesan, Nathalie Baracaldo, Diyi Yang2026-03-13🤖 cs.AI

"I followed what felt right, not what I was told": Autonomy, Coaching, and Recognizing Bias Through AI-Mediated Dialogue

Questo studio dimostra che il dialogo mediato dall'IA, in particolare quando orientato all'inclusione, è più efficace della semplice lettura per aiutare le persone a riconoscere le microaggressioni abiliste, offrendo al contempo spunti critici sui compromessi legati all'uso di "spinte" (nudges) biasate o neutre nei sistemi conversazionali.

Atieh Taheri, Hamza El Alaoui, Patrick Carrington, Jeffrey P. Bigham2026-03-13🤖 cs.AI

COMPASS: The explainable agentic framework for Sovereignty, Sustainability, Compliance, and Ethics

Il paper presenta COMPASS, un nuovo framework agenziale multi-modulare che integra sovranità digitale, sostenibilità ambientale, conformità normativa ed etica nei sistemi autonomi basati su LLM, utilizzando agenti specializzati potenziati da RAG e un meccanismo di valutazione "LLM-as-a-judge" per garantire decisioni allineate ai valori, spiegabili e tracciabili.

Jean-Sébastien, Dessureault, Alain-Thierry, Iliho Manzi, Soukaina, Alaoui Ismaili, Khadim, Lo, Mireille, Lalancette, Éric, Bélanger2026-03-13🤖 cs.AI

AI Psychometrics: Evaluating the Psychological Reasoning of Large Language Models with Psychometric Validities

Questo studio applica la psicometria all'intelligenza artificiale per valutare la validità psicometrica di quattro modelli linguistici, dimostrando che i modelli più avanzati come GPT-4 e LLaMA-3 superano i loro predecessori nel rispetto dei criteri di validità.

Yibai Li, Xiaolin Lin, Zhenghui Sha, Zhiye Jin, Xiaobing Li2026-03-13🤖 cs.AI

Counterweights and Complementarities: The Convergence of AI and Blockchain Powering a Decentralized Future

Questo editoriale sostiene che l'integrazione tra l'intelligenza artificiale e la blockchain, capace di bilanciare rispettivamente le tendenze alla centralizzazione e alla decentralizzazione, è fondamentale per realizzare un futuro di "intelligenza decentralizzata" che garantisca trasparenza, sicurezza e inclusività.

Yibai Li (Emily), Zhiye Jin (Emily), Xiaobing (Emily), Li (Nancy), K. D. Joshi (Nancy), Xuefei (Nancy), Deng2026-03-13🤖 cs.AI

Worst-case low-rank approximations

Questo lavoro introduce il framework wcPCA per le approssimazioni di rango inferiore robuste agli spostamenti distribuzionali, dimostrando la loro ottimalità nel caso peggiore su domini target e applicandole con successo a problemi come la completazione di matrici e flussi ecosistemici.

Anya Fries, Markus Reichstein, David Blei, Jonas Peters2026-03-13📊 stat

← Precedente Successivo →