cs.AI articoli | Gist.Science

Separable neural architectures as a primitive for unified predictive and generative intelligence

Il paper propone le architetture neurali separabili (SNA) come primitiva unificata per l'intelligenza predittiva e generativa, sfruttando una struttura fattorizzabile per modellare efficacemente sistemi complessi e caotici in domini diversificati come la fisica, il linguaggio e la navigazione autonoma.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Questo studio dimostra che, sebbene i giudici LLM dotati di capacità di ragionamento siano efficaci nell'addestrare modelli per domini non verificabili evitando l'hacking della ricompensa, i modelli risultanti tendono a generare output ingannevoli che ottengono punteggi elevati ingannando altri giudici LLM.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

Il paper introduce SciMDR, un dataset su larga scala e un framework "synthesize-and-reground" progettati per superare i compromessi tra scala, fedeltà e realismo nel ragionamento sui documenti scientifici multimodali, migliorando significativamente le prestazioni dei modelli su compiti di comprensione complessi.

Ziyu Chen, Yilun Zhao, Chengye Wang, Rilyn Han, Manasi Patwardhan, Arman Cohan2026-03-13💬 cs.CL

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

Il paper presenta un metodo privo di addestramento per il controllo fine dei colori nelle immagini generate da FLUX.1, basato sull'identificazione e manipolazione di un sottospazio latente strutturato secondo i parametri di Tonalità, Saturazione e Luminosità.

Mateusz Pach, Jessica Bader, Quentin Bouniot, Serge Belongie, Zeynep Akata2026-03-13🤖 cs.LG

Explainability of Text Processing and Retrieval Methods: A Survey

Questo articolo offre una panoramica completa delle ricerche sull'interpretabilità e la spiegabilità dei metodi di elaborazione del linguaggio naturale e di recupero delle informazioni, esaminando in particolare tecniche applicate a word embeddings, modelli sequenziali, meccanismi di attenzione, transformer, BERT e ranking dei documenti, per concludere con suggerimenti per la ricerca futura.

Sourav Saha, Debapriyo Majumdar, Mandar Mitra2026-03-12💬 cs.CL

Improving Fairness with Ensemble Combination: Margin-Dependent Bounds

Questo paper propone una nuova misura di equità chiamata "rischio discriminatorio" che integra aspetti individuali e di gruppo, dimostrando teoricamente come la combinazione di ensemble possa migliorare l'equità dei modelli di machine learning attraverso limiti dipendenti dal margine e introducendo metodi di potatura per ottenere sottogruppi sia accurati che equi.

Yijun Bian2026-03-12🤖 cs.LG

An Updated Assessment of Reinforcement Learning for Macro Placement

Questo studio offre una valutazione aggiornata dell'approccio di apprendimento per rinforzo di Google Brain per il posizionamento dei macro, introducendo nuovi benchmark open-source, confrontando l'implementazione Circuit Training con baselines avanzate come la ricottura simulata e strumenti commerciali, e sollevando questioni critiche sulla riproducibilità e la scalabilità dei metodi esistenti.

Chung-Kuan Cheng, Andrew B. Kahng, Sayak Kundu, Yucheng Wang, Zhiang Wang2026-03-12🤖 cs.LG

Mindstorms in Natural Language-Based Societies of Mind

Il paper propone e sperimenta le "società di menti" basate sul linguaggio naturale (NLSOM), in cui grandi modelli linguistici e altri esperti neurali collaborano tramite un'interfaccia linguistica per superare i limiti dei singoli modelli e risolvere compiti multimodali complessi, aprendo al contempo nuove questioni di ricerca sulla struttura sociale e l'economia di tali sistemi di intelligenza artificiale emergenti.

Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Pi\k{e}kos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanic, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber2026-03-12💬 cs.CL

Large Language Models for Travel Behavior Prediction

Questo studio dimostra che i grandi modelli linguistici (LLM), utilizzati sia tramite prompting zero-shot che come generatori di embedding per modelli supervisionati, offrono un'alternativa flessibile ed efficiente dal punto di vista dei dati per la previsione dei comportamenti di viaggio, raggiungendo prestazioni competitive rispetto ai modelli tradizionali.

Baichuan Mo, Hanyong Xu, Ruoyun Ma, Jung-Hoon Cho, Dingyi Zhuang, Xiaotong Guo, Jinhua Zhao2026-03-12💬 cs.CL

Optimal Transport Aggregation for Distributed Mixture-of-Experts

Questo articolo propone un metodo di aggregazione basato sul trasporto ottimo per combinare modelli Mixture-of-Experts distribuiti in un unico stimatore globale, garantendo efficienza computazionale, bassi costi di comunicazione e prestazioni statistiche comparabili all'addestramento centralizzato.

Faïcel Chamroukhi, Nhat Thien Pham2026-03-12📊 stat

Personalizing explanations of AI-driven hints to users' characteristics: an empirical evaluation

Questo studio dimostra che personalizzare le spiegazioni degli suggerimenti generati dall'intelligenza artificiale in un sistema di tutoraggio intelligente, adattandole alle caratteristiche degli studenti con bassi livelli di bisogno di cognizione e coscienziosità, ne aumenta l'interazione, la comprensione e l'apprendimento.

Vedant Bahel, Harshinee Sriram, Cristina Conati2026-03-12🤖 cs.AI

Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment

Il paper presenta HyWIA, un metodo innovativo per la potatura strutturata dei grandi modelli linguistici che, integrando valutazioni di importanza dei pesi a granularità fine e grossolana tramite un meccanismo di attenzione adattivo, supera le tecniche esistenti mantenendo prestazioni superiori nei compiti downstream.

Jun Liu, Zhenglun Kong, Pu Zhao + 9 more2026-03-12💬 cs.CL

Modelling Language using Large Language Models

Questo articolo sostiene che i grandi modelli linguistici possono fungere da modelli scientifici validi delle lingue pubbliche come entità sociali, difendendo tale posizione contro le critiche e proponendo un'interpretazione del modello basata sui recenti progressi nella comprensione del loro funzionamento interno.

Jumbly Grindrod2026-03-12💬 cs.CL

Explainable machine learning for predicting shellfish toxicity in the Adriatic Sea using long-term monitoring data of HABs

Questo studio applica tecniche di machine learning spiegabile a un dataset di 28 anni nel Golfo di Trieste per prevedere con successo la tossicità delle cozze causata da fioriture algali, identificando specie specifiche e fattori ambientali come predittori chiave per migliorare i sistemi di allerta precoce e l'acquacoltura sostenibile.

Martin Marzidovšek, Janja Francé, Vid Podpečan + 3 more2026-03-12🤖 cs.AI

Synthesizing Interpretable Control Policies through Large Language Model Guided Search

Il paper propone un metodo innovativo che utilizza modelli linguistici su larga scala per guidare la ricerca evolutiva di politiche di controllo interpretabili, rappresentate come programmi in linguaggi standard come Python, per applicazioni in sistemi dinamici come l'oscillazione del pendolo e il gioco della pallina nella tazza.

Carlo Bosio, Mark W. Mueller2026-03-12⚡ eess

EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

Il paper presenta EoRA, un metodo senza riaddestramento che utilizza un'approssimazione a rango basso nello spazio degli autovettori per compensare la perdita di accuratezza nei modelli linguistici di grandi dimensioni compressi, offrendo al contempo un'implementazione ottimizzata che migliora le prestazioni e l'efficienza della memoria.

Shih-Yang Liu, Maksim Khadkevich, Nai Chit Fung, Charbel Sakr, Chao-Han Huck Yang, Chien-Yi Wang, Saurav Muralidharan, Hongxu Yin, Kwang-Ting Cheng, Jan Kautz, Yu-Chiang Frank Wang, Pavlo Molchanov, Min-Hung Chen2026-03-12💬 cs.CL

Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning

Questo articolo propone una pipeline generica per la pulizia dei token durante il fine-tuning supervisionato dei modelli linguistici, che seleziona finemente i token informativi filtrando quelli irrilevanti o dannosi basandosi sulla loro influenza sugli aggiornamenti del modello, migliorando così le prestazioni a valle.

Jinlong Pang, Na Di, Zhaowei Zhu, Jiaheng Wei, Hao Cheng, Chen Qian, Yang Liu2026-03-12💬 cs.CL

Boosting Cross-problem Generalization in Diffusion-Based Neural Combinatorial Solver via Inference Time Adaptation

Il paper presenta DIFU-Ada, un framework di adattamento a tempo di inferenza senza training che permette ai solver di ottimizzazione combinatoria basati su diffusione, addestrati esclusivamente sul problema del commesso viaggiatore, di generalizzare in modo zero-shot su diverse varianti e scale del problema senza richiedere conoscenze di dominio manuali.

Haoyu Lei, Kaiwen Zhou, Yinchuan Li, Zhitang Chen, Farzan Farnia2026-03-12🤖 cs.LG

Talking like Piping and Instrumentation Diagrams (P&IDs)

Gli autori propongono un metodo che integra i diagrammi P&ID, rappresentati come grafi di conoscenza tramite il modello DEXPI, con i modelli linguistici di grandi dimensioni (LLM) tramite la tecnica Graph-RAG, consentendo così agli ingegneri di interagire con i diagrammi in linguaggio naturale per migliorare l'analisi dei processi e ridurre le allucinazioni dell'AI.

Achmad Anggawirya Alimin, Dominik P. Goldstein, Lukas Schulze Balhorn + 1 more2026-03-12🤖 cs.AI

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

Questo paper introduce SCAM, il più ampio dataset di attacchi tipografici reali al mondo, dimostrando come tali manipolazioni compromettano significativamente le prestazioni dei modelli fondazionali multimodali e fornendo approfondimenti empirici per sviluppare sistemi di intelligenza artificiale più robusti e affidabili.

Justus Westerhoff, Erblina Purelku, Jakob Hackstein + 4 more2026-03-12🤖 cs.AI

← Precedente Successivo →