cs.AI articoli | Gist.Science

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Questo articolo propone una critica consequenzialista alle pratiche di valutazione della classificazione binaria, sostenendo l'adozione di regole di scoring adeguate come il punteggio Brier attraverso un nuovo framework decisionale e il pacchetto Python `briertools`, che colmano il divario tra teoria e pratica dominata da metriche a soglia fissa.

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. Wilson2026-03-11🤖 cs.AI

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

Il documento presenta MCP Bridge, un proxy RESTful leggero e agnostico rispetto ai modelli LLM che abilita l'uso del Model Context Protocol su dispositivi con risorse limitate grazie a un modello di esecuzione sicuro, accompagnato da modelli Qwen ottimizzati che raggiungono prestazioni superiori rispetto a sistemi molto più grandi nel benchmark MCPToolBench++.

Arash Ahmadi, Sarah Sharif, Yaser M. Banad2026-03-11🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Il paper introduce SGPO, un framework che risolve il limite di GRPO di non aggiornare la politica quando tutti i campioni di un gruppo sono errati, migliorando l'apprendimento per rinforzo nei modelli linguistici attraverso una diversificazione guidata da un modello giudice passo-passo che permette di apprendere anche dagli errori senza richiedere soluzioni corrette.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin2026-03-11🤖 cs.AI

Let's Verify Math Questions Step by Step

Il paper presenta MathQ-Verify, una pipeline innovativa a cinque stadi che verifica rigorosamente la validità e la completezza delle domande matematiche per filtrare problemi mal posti, migliorando significativamente le prestazioni rispetto ai metodi di verifica diretti e facilitando la creazione di dataset matematici affidabili.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao Zhang2026-03-11🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

Il paper presenta UltraEdit, un metodo innovativo per l'editing continuo dei modelli linguistici che, eliminando la necessità di addestramento, soggetti specifici o memoria esterna, raggiunge velocità e efficienza superiori rispetto agli stati dell'arte, permettendo di eseguire fino a 2 milioni di modifiche su modelli da 7B con risorse hardware limitate.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai Zhang2026-03-11🤖 cs.AI

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

Il paper presenta SATURN, un framework di apprendimento per rinforzo basato su problemi di soddisfacibilità booleana (SAT) che supera le limitazioni di scalabilità, verificabilità e controllo della difficoltà delle attività esistenti, permettendo di potenziare significativamente le capacità di ragionamento dei modelli linguistici su compiti matematici e di programmazione attraverso un curriculum learning progressivo.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong2026-03-11🤖 cs.AI

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

Il paper introduce Daily-Omni, un nuovo benchmark audio-visivo per valutare la capacità di ragionamento temporale sincrono tra modalità nei modelli linguistici multimodali, evidenziando attraverso una valutazione estensiva che la maggior parte dei modelli attuali fatica ancora a gestire efficacemente l'allineamento temporale cross-modale.

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang Jiang2026-03-11🤖 cs.AI

Embodied AI with Foundation Models for Mobile Service Robots: A Systematic Review

Questo articolo presenta la prima revisione sistematica sull'integrazione dei modelli fondazionali nell'intelligenza artificiale incarnata per i robot di servizio mobili, analizzando come tali tecnologie affrontino le sfide tecniche e abilitino applicazioni pratiche in ambiti domestici e sanitari, pur sollevando questioni etiche e prospettando direzioni future per un deployment sicuro e affidabile.

Matthew Lisondra, Beno Benhabib, Goldie Nejat2026-03-11💬 cs.CL

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

Il paper propone TSRating, un framework unificato che sfrutta il giudizio dei modelli linguistici su larga scala (LLM) e l'apprendimento meta per valutare in modo efficiente e adattabile la qualità di serie temporali provenienti da domini diversi, superando i limiti delle metodologie esistenti.

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong Ng2026-03-11🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Il lavoro propone CORA, un metodo di assegnazione del credito per l'apprendimento per rinforzo multi-agente cooperativo che utilizza il nucleo della teoria dei giochi cooperativi e il campionamento casuale delle coalizioni per allocare in modo più efficace i vantaggi globali e promuovere comportamenti coordinati ottimali.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang Li2026-03-11🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Il paper presenta ChannelTokenFormer, un framework basato su Transformer che affronta simultaneamente le sfide della dipendenza tra canali, del campionamento asincrono e dei valori mancanti per migliorare l'accuratezza e la robustezza delle previsioni di serie temporali multivariate in scenari reali.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup Kim2026-03-11🤖 cs.AI

ConLID: Supervised Contrastive Learning for Low-Resource Language Identification

Il paper presenta ConLID, un approccio di apprendimento contrastivo supervisionato che migliora l'identificazione delle lingue a risorse limitate su dati fuori dominio ottenendo un incremento di 3,2 punti percentuali senza compromettere le prestazioni delle lingue ad alta risorsa.

Negar Foroutan, Jakhongir Saydaliev, Ye Eun Kim, Antoine Bosselut2026-03-11🤖 cs.AI

OPENXRD: A Comprehensive Benchmark Framework for LLM/MLLM XRD Question Answering

Il paper introduce OPENXRD, un quadro di riferimento completo per valutare le capacità di assimilazione del contesto e di ragionamento dei modelli linguistici e multimodali nella domanda e risposta su diffrazione dei raggi X, evidenziando come materiali esperti di alta qualità e dimensioni moderate dei modelli ottimizzino le prestazioni scientifiche.

Ali Vosoughi, Ayoub Shahnazari, Yufeng Xi, Zeliang Zhang, Griffin Hess, Chenliang Xu, Niaz Abdolrahim2026-03-11🤖 cs.AI

On the mechanical creation of mathematical concepts

Il paper propone un modello di risoluzione dei problemi matematici basato sull'aggiornamento delle credenze, distinguendo tra concetti impliciti e espliciti, e sostiene che la creazione di concetti espliciti è il passo fondamentale della scoperta matematica, un'abilità attualmente assente nei sistemi di intelligenza artificiale che operano solo tramite concetti impliciti.

Asvin G2026-03-11🤖 cs.AI

QSpark: Towards Reliable Qiskit Code Generation

Il paper presenta QSpark, un modello Qwen2.5-Coder-32B ottimizzato con tecniche RL come ORPO e GRPO su un dataset sintetico, che supera le prestazioni dei modelli generici nella generazione di codice Qiskit affidabile, sebbene le sfide rimangano per i compiti avanzati.

Kiana Kheiri, Aamna Aamir, Andriy Miranskyy + 1 more2026-03-11🤖 cs.AI

Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Il paper presenta Latent Policy Steering (LPS), un metodo che migliora le politiche visuomotorie robotiche in scenari con pochi dati preaddestando un modello del mondo su rappresentazioni di flusso ottico agnostiche rispetto all'effettore per sfruttare dati eterogenei, per poi affinare la politica e selezionare le azioni ottimali tramite una funzione di valore appresa.

Yiqi Wang, Mrinal Verghese, Jeff Schneider2026-03-11🤖 cs.AI

MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs

Il paper presenta MMGraphRAG, un approccio innovativo che integra grafi di scena visivi con grafi di conoscenza testuali tramite una fusione cross-modale e l'algoritmo SpecLink per colmare il divario tra visione e linguaggio, migliorando l'accuratezza e l'interpretabilità della generazione assistita da conoscenza.

Xueyao Wan, Hang Yu2026-03-11🤖 cs.AI

Debiasing International Attitudes: LLM Agents for Simulating US-China Perception Changes

Questo studio presenta un framework basato su agenti LLM per simulare l'evoluzione delle attitudini degli statunitensi verso la Cina dal 2005 al 2025, dimostrando che l'uso di un agente "avvocato del diavolo" è il meccanismo più efficace per mitigare i pregiudizi derivanti dalla narrazione mediatica e avvicinare le opinioni simulate a quelle umane.

Nicholas Sukiennik, Yichuan Xu, Yuqing Kan, Jinghua Piao, Yuwei Yan, Chen Gao, Yong Li2026-03-11🤖 cs.AI

Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method

Il paper propone SFDA-PFT, un metodo efficiente di adattamento di dominio senza sorgente che utilizza la traduzione personalizzata delle caratteristiche nello spazio latente per migliorare il riconoscimento delle espressioni facciali adattando i modelli pre-addestrati ai dati target neutri senza richiedere dati sorgente o sintesi di immagini.

Masoumeh Sharafi, Soufiane Belharbi, Muhammad Osama Zeeshan, Houssem Ben Salem, Ali Etemad, Alessandro Lameiras Koerich, Marco Pedersoli, Simon Bacon, Eric Granger2026-03-11🤖 cs.AI

AI Blob! LLM-Driven Recontextualization of Italian Television Archives

Il paper presenta AI Blob!, un sistema sperimentale che utilizza modelli linguistici di grandi dimensioni e tecniche di recupero semantico per trascrivere, indicizzare e rielaborare in nuove narrazioni ironiche e coerenti un archivio di 1.547 video televisivi italiani, ispirandosi al programma RAI "Blob".

Roberto Balestri2026-03-11💬 cs.CL

← Precedente Successivo →