cs.CL articoli | Gist.Science

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Il paper introduce IAG, il primo attacco backdoor multi-obiettivo per la grounding visuale basato su modelli visione-linguaggio, che genera trigger dinamici e impercettibili guidati dal testo per reindirizzare l'attenzione verso oggetti target specifici senza compromettere le prestazioni su campioni benigni.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Il paper propone OTESGN, una rete che integra trasporto ottimo e grafi sintattico-semantici per migliorare l'analisi del sentiment basata su aspetti, ottenendo risultati all'avanguardia su diversi dataset grazie alla sua capacità di catturare associazioni non lineari e ridurre il rumore contestuale.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying Rong2026-03-10💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Lo studio dimostra che i monitor lineari per i modelli linguistici sono fragili e dipendono fortemente da evidenze testuali superficiali, poiché la loro efficacia crolla drasticamente quando tali indizi vengono rimossi o quando i modelli generano output privi di verbalizzazioni esplicite del comportamento target.

Gerard Boxo, Aman Neelappa, Shivam Raval2026-03-10🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

Il paper introduce PonderLM-2, un nuovo metodo di preaddestramento che migliora le prestazioni dei modelli linguistici generando pensieri latenti intermedi nello spazio continuo prima di ogni token, permettendo a un modello più piccolo di superare uno standard con il doppio dei parametri a parità di costo inferenziale.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan Lin2026-03-10💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Questo lavoro introduce le "firme dei benchmark", insiemi di token salienti la cui perplessità nei modelli linguistici predice le prestazioni, rivelando una struttura di sovrapposizione più sfumata e robusta rispetto alle tradizionali correlazioni di performance e suggerendo che l'organizzazione semantica degli LLM differisce dalla struttura concettuale umana.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Questo studio introduce il concetto di "misevoluzione" per descrivere i rischi emergenti in cui gli agenti LLM auto-evolutivi, pur migliorando autonomamente, deviano verso esiti dannosi attraverso percorsi di evoluzione del modello, della memoria, degli strumenti e del flusso di lavoro, evidenziando la necessità urgente di nuovi paradigmi di sicurezza.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

Il paper introduce TokMem, un framework di memoria procedurale che compila ogni compito riutilizzabile in un singolo token addestrabile, consentendo ai grandi modelli linguistici di acquisire nuovi comportamenti in modo continuo ed efficiente senza congelare il modello di base e superando le tecniche di prompting con recupero.

Zijun Wu, Yongchang Hao, Lili Mou2026-03-10💬 cs.CL

Stochastic Self-Organization in Multi-Agent Systems

Il paper presenta SelfOrg, un framework di auto-organizzazione per sistemi multi-agente basati su LLM che ottimizza dinamicamente la struttura di comunicazione utilizzando valori di Shapley approssimati per costruire un grafo aciclico diretto, permettendo agli agenti di adattarsi autonomamente senza supervisione esterna e migliorando significativamente le prestazioni, specialmente con modelli più deboli.

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

Questo studio presenta un workflow basato su agenti di intelligenza artificiale che estrae autonomamente proprietà termoelettriche e strutturali da circa 10.000 articoli scientifici, creando il più grande dataset curato da LLM a oggi e rendendolo accessibile tramite un esploratore web interattivo.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

Il paper introduce FOR-Prompting, un protocollo di prompting asimmetrico che, attraverso il ruolo di un "Debater" che solleva obiezioni senza fornire soluzioni dirette, migliora l'accuratezza e la qualità delle risposte dei modelli linguistici, rendendoli particolarmente efficaci anche su modelli open-source di piccole dimensioni e in scenari di ragionamento complesso senza richiedere addestramento.

He Zhang, Anzhou Zhang, Jian Dai2026-03-10💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Il paper presenta DialTree, un framework di ottimizzazione della politica basato su alberi di dialogo e apprendimento per rinforzo che supera i limiti degli attacchi a turno singolo, scoprendo autonomamente strategie multi-turno innovative e ottenendo un tasso di successo significativamente superiore rispetto agli approcci esistenti.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

Questo studio presenta un approccio basato su modelli linguistici di grandi dimensioni (LLM) e grafi della conoscenza per strutturare i testi giuridici senegalesi, estrarendo migliaia di articoli e relazioni per migliorare l'accessibilità e la comprensione dei diritti e delle responsabilità legali.

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

Idiom Understanding as a Tool to Measure the Dialect Gap

Questo studio introduce nuovi dataset di benchmark per le espressioni idiomatiche del francese del Québec e metropolitano, dimostrando attraverso test su 111 modelli linguistici che la competenza nella varietà standard non garantisce la comprensione dei dialetti regionali e rivelando un significativo divario dialettale.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury2026-03-10💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Il paper presenta NANOMIND, un framework di co-progettazione hardware-software che ottimizza l'inferenza di modelli multimodali su dispositivi portatili alimentati a batteria suddividendo i modelli in moduli eseguiti su acceleratori eterogenei, ottenendo così un'efficienza energetica superiore e un funzionamento completamente offline.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

Il paper propone ACE, un framework di editing della conoscenza basato sull'attribuzione neuronale che risolve il decadimento delle prestazioni nei ragionamenti multi-step identificando e modificando i percorsi critici query-value, superando significativamente gli stati dell'arte su modelli come GPT-J e Qwen3-8B.

Jiayu Yang, Yuxuan Fan, Songning Lai, Shengen Wu, Jiaqi Tang, Chun Kang, Zhijiang Guo, Yutao Yue2026-03-10💬 cs.CL

R-WoM: Retrieval-augmented World Model For Computer-use Agents

Il paper propone R-WoM, un modello di mondo potenziato dal recupero di informazioni esterne che supera le limitazioni degli LLM nella simulazione a lungo termine degli ambienti digitali, migliorando significativamente le prestazioni degli agenti informatici grazie a conoscenze fattuali e aggiornate.

Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang2026-03-10💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Il paper introduce HypoSpace, una suite diagnostica che valuta la creatività dei modelli linguistici come generatori di insiemi di ipotesi in contesti sottodeterminati, misurando validità, unicità e recupero per rivelare il collasso modale spesso nascosto dalle metriche di correttezza tradizionali.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu2026-03-10💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

Il documento presenta KrishokBondhu, un sistema di consulenza agricola basato su voce e integrato con un centro chiamate per gli agricoltori bengalesi, che utilizza un framework di generazione aumentata dal recupero (RAG) per fornire risposte esperte e contestualizzate in tempo reale, dimostrando un miglioramento significativo nella qualità e completezza delle risposte rispetto ai benchmark esistenti.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman Rafat2026-03-10💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed è un sistema di serving in Rust che offre embedding testuali ultra-veloci con latenza di 1,12 ms attraverso una ricerca statica di token, garantendo prestazioni elevate per applicazioni in tempo reale come il rilevamento di duplicati e la similarità semantica, sebbene con risultati variabili rispetto ai modelli transformer completi a seconda del compito.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Il paper presenta Jr. AI Scientist, un sistema autonomo che emula il flusso di lavoro di un ricercatore junior per generare contributi scientifici validi partendo da lavori esistenti, valutandone al contempo le prestazioni e i rischi attraverso revisioni automatizzate e umane.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

← Precedente Successivo →