cs.AI articoli | Gist.Science

R1-Code-Interpreter: LLMs Reason with Code via Supervised and Multi-stage Reinforcement Learning

Il paper presenta R1-Code-Interpreter, un modello LLM potenziato da un approccio di apprendimento curricolare multi-fase che combina fine-tuning supervisionato e rinforzato, permettendo di generare codice autonomamente e raggiungendo prestazioni superiori rispetto a GPT-4o su una vasta gamma di compiti di ragionamento e pianificazione.

Yongchao Chen, Yueying Liu, Junwei Zhou + 5 more2026-03-05🤖 cs.AI

Boosting In-Context Learning in LLMs Through the Lens of Classical Supervised Learning

Il paper propone la Calibrazione Supervisionata (SC), un nuovo framework basato sulla minimizzazione della perdita che supera i limiti delle tecniche di calibrazione esistenti per l'Apprendimento in Contesto (ICL) nei LLM, permettendo di modificare l'orientamento dei confini decisionali e integrando regolarizzatori per migliorare la stabilità e le prestazioni su diversi modelli e dataset.

Korel Gundem, Juncheng Dong, Dennis Zhang + 2 more2026-03-05🤖 cs.AI

AutoQD: Automatic Discovery of Diverse Behaviors with Quality-Diversity Optimization

Il paper presenta AutoQD, un metodo che automatizza la scoperta di comportamenti diversificati negli algoritmi di ottimizzazione Qualità-Diversità generando descrittori comportamentali basati sulle misure di occupazione delle politiche, eliminando così la necessità di definire manualmente tali descrittori.

Saeed Hedayatian, Stefanos Nikolaidis2026-03-05🤖 cs.AI

Robust Adversarial Quantification via Conflict-Aware Evidential Deep Learning

Il paper presenta C-EDL, un approccio post-hoc leggero per l'incertezza che, sfruttando trasformazioni diversificate e la misurazione del disaccordo rappresentazionale, migliora significativamente la robustezza e la rilevazione di dati fuori distribuzione o avversari nei modelli di Deep Learning Evidenziale senza richiedere un nuovo addestramento.

Charmaine Barker, Daniel Bethell, Simos Gerasimou2026-03-05🤖 cs.AI

LeanTutor: Towards a Verified AI Mathematical Proof Tutor

Il paper presenta LeanTutor, un sistema di tutoraggio matematico basato sull'IA che combina le capacità comunicative dei modelli linguistici con la correttezza verificabile dei prover di teoremi Lean, valutato tramite il nuovo dataset PeanoBench.

Manooshree Patel, Rayna Bhattacharyya, Thomas Lu + 4 more2026-03-05🤖 cs.AI

VFEFL: Privacy-Preserving Federated Learning against Malicious Clients via Verifiable Functional Encryption

Il documento presenta VFEFL, un framework di apprendimento federato che utilizza una nuova schema di crittografia funzionale verificabile decentralizzata (CC-DVFE) per garantire privacy, robustezza contro client malevoli e verificabilità senza dipendere da assunzioni di server non colludenti o terze parti fidate.

Nina Cai, Jinguang Han, Weizhi Meng2026-03-05🤖 cs.AI

EgoWorld: Translating Exocentric View to Egocentric View using Rich Exocentric Observations

Il paper introduce EgoWorld, un nuovo framework che ricostruisce una visione in prima persona a partire da osservazioni esocentriche ricche (come nuvole di punti, pose 3D delle mani e descrizioni testuali) superando i limiti dei metodi attuali e ottenendo prestazioni all'avanguardia su diversi dataset.

Junho Park, Andrew Sangwoo Ye, Taein Kwon2026-03-05🤖 cs.AI

RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

Il paper presenta RLVER, un innovativo framework di apprendimento per rinforzo che utilizza ricompense emotive verificabili da utenti simulati per addestrare modelli linguistici a sviluppare un'intelligenza emotiva superiore, migliorando drasticamente le loro capacità empatiche senza compromettere le competenze logiche e matematiche.

Peisong Wang, Ruotian Ma, Bang Zhang + 13 more2026-03-05🤖 cs.AI

UQLM: A Python Package for Uncertainty Quantification in Large Language Models

Il paper presenta UQLM, un pacchetto Python che rileva le allucinazioni nei grandi modelli linguistici calcolando punteggi di incertezza per valutare l'affidabilità delle loro risposte.

Dylan Bouchard, Mohit Singh Chauhan, David Skarbrevik + 3 more2026-03-05🤖 cs.AI

Q-Guided Stein Variational Model Predictive Control via RL-informed Policy Prior

Il paper propone Q-SVMPC, un metodo di controllo predittivo basato su modelli guidato da valori Q e prior di policy appresi tramite RL, che utilizza l'inferenza variazionale di Stein per preservare soluzioni multiple e migliorare efficienza, stabilità e robustezza in compiti complessi rispetto alle tecniche esistenti.

Shizhe Cai, Zeya Yin, Jayadeep Jacob + 1 more2026-03-05🤖 cs.AI

From Ambiguity to Accuracy: The Transformative Effect of Coreference Resolution on Retrieval-Augmented Generation systems

Questo studio dimostra che l'applicazione della risoluzione delle coreferenze nei sistemi Retrieval-Augmented Generation (RAG) migliora significativamente l'efficacia del recupero e la qualità delle risposte, in particolare per i modelli di dimensioni ridotte, mitigando l'ambiguità referenziale che ostacola l'apprendimento contestuale.

Youngjoon Jang, Seongtae Hong, Junyoung Son + 3 more2026-03-05🤖 cs.AI

Function Induction and Task Generalization: An Interpretability Study with Off-by-One Addition

Questo studio utilizza tecniche di interpretabilità per dimostrare che i grandi modelli linguistici generalizzano compiti nuovi tramite un meccanismo di "induzione di funzioni", in cui più testine di attenzione collaborano per apprendere e riutilizzare strutture astratte come l'addizione con uno spostamento.

Qinyuan Ye, Robin Jia, Xiang Ren2026-03-05🤖 cs.AI

VITA: Vision-to-Action Flow Matching Policy

Il paper presenta VITA, un framework di apprendimento per politiche di flusso che mappano direttamente le rappresentazioni visive in azioni latenti senza rumore o condizionamento visivo iterativo, ottenendo un'inferenza più rapida e prestazioni competitive rispetto ai metodi tradizionali.

Dechen Gao, Boqi Zhao, Andrew Lee + 6 more2026-03-05🤖 cs.AI

HAMLET: A Hierarchical and Adaptive Multi-Agent Framework for Live Embodied Theatrics

Il paper presenta HAMLET, un framework gerarchico e adattivo basato su agenti multipli che utilizza modelli linguistici di grandi dimensioni per generare e gestire spettacoli teatrali interattivi e corporei in tempo reale, permettendo agli attori autonomi di prendere decisioni basate su personaggi e memoria e di interagire fisicamente con l'ambiente scenico.

Shufan Jiang, Sizhou Chen, Chi Zhang + 2 more2026-03-05🤖 cs.AI

From Privacy to Trust in the Agentic Era: A Taxonomy of Challenges in Trustworthy Federated Learning Through the Lens of Trust Report 2.0

Il documento propone una tassonomia delle sfide e un piano di coordinamento per il Federated Learning affidabile nell'era degli agenti autonomi, introducendo il "Trust Report 2.0" come artefatto leggero per garantire la fiducia attraverso evidenze decisionali nel rispetto della privacy, con una validazione applicata al settore sanitario oncologico.

Nuria Rodríguez-Barroso, Mario García-Márquez, M. Victoria Luzón + 1 more2026-03-05🤖 cs.AI

Self-Supervised Inductive Logic Programming

Il paper presenta Poker, un nuovo sistema di Programmazione Logica Induttiva (ILP) auto-supervisionato che, in assenza di esempi negativi e di una teoria di fondo specifica, apprende programmi logici ricorsivi generando automaticamente nuovi esempi e utilizzando una teoria di fondo di secondo ordine standardizzata, superando così le limitazioni di generalizzazione eccessiva riscontrate in sistemi esistenti come Louise.

Stassa Patsantzis2026-03-05🤖 cs.AI

Text2VLM: Adapting Text-Only Datasets to Evaluate Alignment Training in Visual Language Models

Il paper presenta Text2VLM, un nuovo pipeline che adatta dataset testuali-only in formati multimodali per valutare la resilienza dei modelli linguistici visivi contro attacchi di iniezione di prompt tipografici, rivelando vulnerabilità critiche e un divario prestazionale rispetto ai modelli proprietari.

Gabriel Downer, Sean Craven, Damian Ruck + 1 more2026-03-05🤖 cs.AI

When Relevance Meets Novelty: Dual-Stable Periodic Optimization for Serendipitous Recommendation

Questo articolo propone il metodo Co-Evolutionary Alignment (CoEA), che combina il modulo Dual-Stable Interest Exploration (DSIE) per modellare sia le identità di gruppo a lungo termine che gli interessi individuali a breve termine, e il meccanismo Periodic Collaborative Optimization (PCO) per un'ottimizzazione dinamica a ciclo chiuso, al fine di migliorare la serendipità nei sistemi di raccomandazione superando i limiti dei modelli tradizionali e delle attuali architetture basate su LLM.

Hongxiang Lin, Hao Guo, Zeshun Li + 6 more2026-03-05🤖 cs.AI

WebDS: An End-to-End Benchmark for Web-based Data Science

Il paper introduce WebDS, il primo benchmark end-to-end per la data science basata sul web, che evidenzia il significativo divario tra le prestazioni degli attuali agenti LLM e quelle umane nella gestione di compiti complessi e multi-step su siti web eterogenei.

Ethan Hsu, Hong Meng Yam, Ines Bouissou + 9 more2026-03-05🤖 cs.AI

ToolVQA: A Dataset for Multi-step Reasoning VQA with External Tools

Il paper introduce ToolVQA, un dataset multimodale su larga scala di 23.000 istanze generato tramite la pipeline ToolEngine, progettato per migliorare le capacità di ragionamento multi-step e l'uso di strumenti esterni nei Large Foundation Models, permettendo loro di superare modelli proprietari come GPT-3.5-turbo in scenari reali complessi.

Shaofeng Yin, Ting Lei, Yang Liu2026-03-05🤖 cs.AI

← Precedente Successivo →