cs.CL articoli | Gist.Science

Optimizing Language Models for Crosslingual Knowledge Consistency

Il paper introduce la Direct Consistency Optimization (DCO), un metodo basato sul reinforcement learning che migliora significativamente la coerenza delle conoscenze nei modelli linguistici multilingue senza richiedere un modello di ricompensa esplicito.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

Questo studio dimostra che la distribuzione delle stopwords segue una Legge Beta Rank Function anziché la Legge di Zipf e propone un modello di selezione basato su una funzione di Hill per spiegare tale comportamento e la distribuzione quadratica delle parole non-stopwords.

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Questo studio valuta l'impatto delle tecniche di aumento dei dati e di potenziamento delle caratteristiche sulla rilevazione dell'odio, dimostrando che il modello open-source gpt-oss-20b ottiene i risultati migliori in generale, mentre l'aumento dei dati potenzia significativamente anche i classificatori tradizionali come Delta TF-IDF, pur confermando che la rilevazione dell'odio implicito rimane più complessa di quella esplicita.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

Questa ricerca dimostra che i modelli linguistici su larga scala, in particolare Llama 3.2, superano significativamente i metodi tradizionali nella classificazione multiclasse di contenuti illeciti complessi e squilibrati sui marketplace online, offrendo strumenti più efficaci e scalabili per la sicurezza digitale.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Questo studio propone un framework di valutazione a due livelli per analizzare l'efficacia dei modelli AI nel simulare le domande specifiche dei giudici durante le arringhe orali, rivelando che, sebbene le domande generate siano percepite come realistiche e coprano bene i temi legali sostanziali, i modelli presentano ancora carenze significative come la scarsa diversità e la sycophancy che i metodi di valutazione ingenui non riescono a rilevare.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Questo documento presenta "Model Medicine", un quadro clinico interdisciplinare che applica principi biologici e medici per diagnosticare, trattare e prevenire disturbi nei modelli di intelligenza artificiale, introducendo una tassonomia di discipline, strumenti diagnostici come la "Neural MRI" e framework terapeutici per gestire la complessità dei sistemi AI.

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Questo articolo presenta un sistema neuro-simbolico che combina il modello linguistico Gemini Deep Think con una ricerca ad albero e feedback numerico per risolvere autonomamente un problema aperto nella fisica teorica, derivando nuove soluzioni analitiche esatte per lo spettro di potenza della radiazione gravitazionale emessa dalle stringhe cosmiche.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

Il paper propone "Interactive Benchmarks", un nuovo paradigma di valutazione unificato che misura l'intelligenza dei modelli attraverso processi interattivi sotto vincoli di budget, dimostrando che tale approccio offre una valutazione più robusta e fedele rispetto ai benchmark standard saturi.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Il paper presenta IF-RewardBench, un benchmark meta-evaluativo completo per modelli giudici che, superando i limiti degli approcci esistenti attraverso una valutazione listwise basata su grafi di preferenze, offre una misurazione più affidabile delle capacità di allineamento e di aderenza alle istruzioni dei modelli linguistici.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Il paper presenta DARE, un modello di recupero distribuzionale-aware che, integrato con un nuovo agente LLM per R e un database di pacchetti curato, migliora significativamente il recupero di funzioni statistiche e la generazione di codice, colmando il divario tra l'automazione dei LLM e l'ecosistema statistico di R.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

HiMAP-Travel è un framework di pianificazione gerarchico multi-agente che risolve i problemi di pianificazione a lungo termine con vincoli rigidi, come budget e diversità, suddividendo il compito in coordinamento strategico ed esecuzione parallela dei giorni, ottenendo prestazioni superiori rispetto alle soluzioni sequenziali esistenti.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

Il paper presenta SharedLLM, un framework innovativo che estende la finestra contestuale dei modelli linguistici fino a 128K token tramite un meccanismo di "self-injection" a due livelli che comprime e recupera informazioni in modo efficiente, ottenendo prestazioni superiori con un ridotto footprint di memoria e velocità di inferenza notevolmente aumentate.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

Il paper presenta TSEmbed, un framework di embedding multimodale universale che combina Mixture-of-Experts e LoRA con un nuovo campionamento negativo consapevole degli esperti per risolvere i conflitti tra task e raggiungere prestazioni all'avanguardia su benchmark multimodali e dataset industriali.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Questo documento presenta il framework Privacy-Aware Camera 2.0, che risolve il paradosso tra sicurezza e privacy negli ambienti sensibili trasformando le immagini grezze in vettori di caratteristiche astratti e irreversibili tramite un'architettura edge-cloud, permettendo così il riconoscimento comportamentale e la ricostruzione semantica senza esporre i dati visivi originali.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Il paper presenta RLSTA, un approccio di apprendimento per rinforzo che utilizza risposte a turno singolo come ancoraggi stabili per superare l'inerzia contestuale e migliorare l'affidabilità delle interazioni multi-turno degli LLM.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

Il paper propone CSV, un nuovo paradigma che riduce le invocazioni degli LLM a complessità sublineare per il filtraggio semantico tramite clustering, campionamento e strategie di votazione, garantendo un'efficienza superiore rispetto agli approcci attuali senza compromettere l'accuratezza.

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

Questo articolo introduce il concetto di Campo Gravitazionale dell'Attenzione (AGF) per decodificare le relazioni posizionali nei modelli linguistici di grandi dimensioni, dimostrando come la separazione tra codifiche posizionali e incorporamenti semantici, allineata alla legge di gravitazione universale, ottimizzi l'architettura del modello e ne migliori l'interpretabilità.

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Questo studio confronta l'efficacia e i costi dei sistemi di memoria basati su fatti con quelli degli LLM a lungo contesto, dimostrando che mentre i secondi offrono un migliore richiamo fattuale, i primi diventano economicamente superiori dopo un numero limitato di interazioni grazie a un profilo di costi più stabile.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Questo studio meta-analitico rivela che i modelli di linguaggio automatico, in particolare quelli basati su architetture decoder-only, mostrano prestazioni inferiori rispetto agli umani nella valutazione di risposte brevi, con discrepanze significative legate alla difficoltà percepita, alla tokenizzazione e a pregiudizi razziali, suggerendo la necessità di un ripensamento nella progettazione dei sistemi per l'istruzione ad alto rischio.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

Il paper propone GDS, un metodo innovativo che rileva i dati di pre-addestramento nei grandi modelli linguistici analizzando le deviazioni dei gradienti durante l'ottimizzazione, superando i limiti delle tecniche esistenti grazie a prestazioni superiori e una maggiore trasferibilità tra dataset.

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

← Precedente Successivo →