cs.AI articoli | Gist.Science

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Questo studio propone un quadro di analisi a livelli per esaminare 178 benchmark di modelli linguistici e agenti per il codice, rivelando una significativa disparità nella copertura delle fasi del ciclo di vita del software (con un'enfasi eccessiva sull'implementazione e una scarsa attenzione alla progettazione e ai requisiti) e sottolineando la necessità di strategie anti-contaminazione per garantire valutazioni più robuste e pratiche.

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin Shi2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

Il paper presenta EVA, un nuovo framework di apprendimento asincrono che, ispirandosi alla modellazione linguistica, genera caratteristiche evento-per-evento altamente espressive superando i metodi precedenti sia in compiti di riconoscimento che di rilevamento.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Questo articolo propone K-CAST, un metodo di steering delle attivazioni basato su kNN che mitiga dinamicamente i bias di contenuto nei modelli linguistici, migliorando significativamente la loro accuratezza nel ragionamento formale senza compromettere le capacità linguistiche multilingue.

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

Il paper introduce AdAEM, un algoritmo di valutazione auto-estensibile che genera dinamicamente domande di test per rivelare in modo più informativo e distinguibile le differenze di valori tra i modelli linguistici su larga scala, superando i limiti delle metriche statiche attuali.

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Il paper introduce ESGenius, il primo benchmark completo per valutare le capacità dei modelli linguistici di grandi dimensioni nelle conoscenze ESG e sulla sostenibilità, dimostrando che l'uso della generazione aumentata dal recupero (RAG) su un corpus curato di fonti autorevoli colma significativamente il divario di conoscenza rispetto alle prestazioni zero-shot.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Il paper introduce KramaBench, un benchmark composto da 104 sfide curate manualmente per valutare le capacità end-to-end dei sistemi di intelligenza artificiale nell'orchestrare pipeline complesse per l'estrazione di insight da data lake, rivelando che le attuali soluzioni agentiche faticano a produrre flussi di lavoro funzionanti nonostante la loro efficacia in singoli compiti isolati.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Il paper presenta VisioMath, un benchmark di 1.800 problemi matematici K-12 basato su diagrammi visivamente simili, che rivela come i modelli linguistici multimodali attuali falliscano nel ragionamento comparativo a causa di un disallineamento tra immagine e testo, proponendo strategie di allineamento per migliorare le prestazioni.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

Questo studio propone un nuovo framework multidimensionale per valutare la competenza morale dei grandi modelli linguistici, rivelando che, sebbene superino gli umani in scenari etici predefiniti, falliscono significativamente nel discernere le informazioni rilevanti da quelle irrilevanti in contesti complessi, suggerendo che le attuali valutazioni sovrastimino le loro reali capacità di ragionamento morale.

Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J. Snoswell, Seth Lazar2026-03-09🤖 cs.AI

ContextBench: Modifying Contexts for Targeted Latent Activation

Il paper introduce ContextBench, un benchmark per valutare metodi di modifica del contesto volti ad attivare specifiche caratteristiche latenti nei modelli linguistici, e dimostra che varianti avanzate dell'ottimizzazione evolutiva dei prompt riescono a bilanciare efficacemente forza di attivazione e fluidità linguistica.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Il paper presenta Sysformer, un approccio innovativo che protegge i grandi modelli linguistici (LLM) congelati adattando dinamicamente i prompt di sistema tramite un modello trasformatore, migliorando significativamente la robustezza contro gli attacchi dannosi e la conformità alle richieste sicure senza richiedere un costoso riaddestramento dei parametri del modello.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

Iterative Quantum Feature Maps

Il documento propone le Iterative Quantum Feature Maps (IQFMs), un framework ibrido quantistico-classico che costruisce architetture profonde collegando iterativamente mappe di feature quantistiche superficiali con pesi di aumento calcolati classicamente, riducendo così i tempi di esecuzione quantistica e mitigando gli effetti del rumore senza richiedere l'ottimizzazione di parametri quantistici variazionali.

Nasa Matsumoto, Quoc Hoan Tran, Koki Chinzei, Yasuhiro Endo, Hirotaka Oshima2026-03-09⚛️ quant-ph

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

Il paper introduce SPARC, un framework che utilizza autoencoder sparsi allineati per creare uno spazio latente unificato che permette di interpretare e confrontare direttamente concetti ad alto livello tra modelli e modalità diverse, migliorando drasticamente l'allineamento concettuale e abilitando nuove applicazioni come la localizzazione spaziale guidata dal testo.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Bridging MOOCs, Smart Teaching, and AI: A Decade of Evolution Toward a Unified Pedagogy

Questo articolo propone un quadro pedagogico unificato che integra MOOC, insegnamento intelligente e intelligenza artificiale in un modello a strati per trasformare l'istruzione superiore attraverso l'esposizione strutturata, l'allocazione adattiva e l'amplificazione dell'efficienza.

Bo Yuan, Jiazi Hu2026-03-09🤖 cs.AI

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

Il paper presenta ExDD, un nuovo framework per il rilevamento di difetti superficiali che supera i limiti della rilevazione di anomalie a una sola classe modellando esplicitamente distribuzioni duali di caratteristiche e generando difetti sintetici tramite modelli di diffusione per affrontare la scarsità di dati.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Questo lavoro presenta un sistema multi-agente basato su modelli linguistici multimodali che supera significativamente lo stato dell'arte nell'estrazione automatica di informazioni chimiche da grafiche e testi scientifici, garantendo la creazione di database strutturati di alta qualità per la ricerca chimica guidata dall'intelligenza artificiale.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Questo lavoro introduce MAP, un metodo di decodifica senza addestramento che mitiga le allucinazioni nei modelli visione-linguaggio su larga scala trattando gli stati nascosti come mappe semantiche 2D e applicando operazioni di attenzione a livello di mappa per migliorare la coerenza fattuale.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Il paper presenta VLMQ, un framework di quantizzazione post-allenamento specifico per i modelli visione-linguaggio che, identificando e mitigando la sovrarappresentazione visiva e il divario tra modalità, utilizza un fattore di importanza guidato dal gradiente per selezionare i token salienti e ottenere prestazioni all'avanguardia, specialmente nelle configurazioni a basso numero di bit.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

Il paper presenta SGDFuse, un modello di diffusione condizionato guidato da SAM che utilizza maschere semantiche come priori espliciti per fondere immagini a infrarossi e visibili, ottenendo risultati ad alta fedeltà e privi di artefatti che superano gli stati dell'arte sia nella valutazione soggettiva che oggettiva.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Handling Infinite Domain Parameters in Planning Through Best-First Search with Delayed Partial Expansions

Questo articolo propone un algoritmo di ricerca euristica best-first con espansioni parziali ritardate per gestire in modo efficiente i parametri di controllo a dominio infinito nella pianificazione automatica, trattandoli esplicitamente come punti decisionali e dimostrando la completezza nel limite.

Ángel Aso-Mollar, Diego Aineto, Enrico Scala + 1 more2026-03-09⚡ eess

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

Il paper introduce "Answer-Then-Check", un nuovo approccio di allineamento alla sicurezza che addestra i modelli linguistici a generare una risposta interna e valutarne la sicurezza prima di rispondere all'utente, migliorando così la robustezza contro gli attacchi jailbreak e riducendo i falsi rifiuti senza compromettere le capacità di ragionamento generale.

Chentao Cao, Xiaojun Xu, Bo Han, Hang Li2026-03-09🤖 cs.AI

← Precedente Successivo →