cs.CL articoli | Gist.Science

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Questo studio dimostra che, nonostante l'eccellenza nella generazione, i modelli linguistici di grandi dimensioni (LLM) mostrano prestazioni inferiori e inaffidabili nei compiti di valutazione, rivelando un "paradosso" che richiede una maggiore attenzione alla loro affidabilità come giudici.

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

Sentiment Analysis of Citations in Scientific Articles Using ChatGPT: Identifying Potential Biases and Conflicts of Interest

Questo studio presenta l'uso innovativo di ChatGPT per analizzare il sentiment delle citazioni negli articoli scientifici, al fine di identificare potenziali bias e conflitti di interesse e migliorare l'integrità della valutazione della letteratura accademica.

Walid Hariri2026-03-09💬 cs.CL

Transforming Agency. On the mode of existence of Large Language Models

Il paper sostiene che i Large Language Models, pur non possedendo un'agenzia autonoma secondo le teorie della mente incarnata a causa della mancanza di individualità, normatività e asimmetria interazionale, agiscono come interlocutori linguistici che, attraverso un'incarnazione testuale e computazionale, trasformano radicalmente l'agenzia umana generando forme ibride di "agenzia di mezzo".

Xabier E. Barandiaran, Lola S. Almendros2026-03-09🤖 cs.AI

Do Prevalent Bias Metrics Capture Allocational Harms from LLMs?

Lo studio dimostra che le metriche di bias attualmente utilizzate non riescono a catturare in modo affidabile i danni allocativi derivanti dalle previsioni dei grandi modelli linguistici, evidenziando la necessità di considerare come tali previsioni influenzino le decisioni reali nell'assegnazione di risorse limitate.

Hannah Cyberey, Yangfeng Ji, David Evans2026-03-09💬 cs.CL

Goldfish: Monolingual Language Models for 350 Languages

Il paper introduce Goldfish, una suite di oltre 1.000 piccoli modelli linguistici monolingue addestrati su 350 lingue che, nonostante le dimensioni ridotte, superano i grandi modelli multilingue nella generazione grammaticale e nella perplessoità, offrendo per la prima volta risorse monolingue pubbliche per 215 di queste lingue.

Tyler A. Chang, Catherine Arnett, Zhuowen Tu, Benjamin K. Bergen2026-03-09💬 cs.CL

Towards Resource Efficient and Interpretable Bias Mitigation in Large Language Models

Questo articolo propone un metodo efficiente e interpretabile per mitigare i pregiudizi nei grandi modelli linguistici, utilizzando piccoli modelli esperti per generare un segnale di debiasing aggiunto durante la decodifica, riducendo così i bias legati a genere, razza e religione senza compromettere le prestazioni del modello.

Schrasing Tong, Eliott Zemour, Jessica Lu, Rawisara Lohanimit, Lalana Kagal2026-03-09💬 cs.CL

SpecFuse: Ensembling Large Language Models via Next-Segment Prediction

Il paper presenta SpecEM, un framework di ensemble per modelli linguistici di grandi dimensioni (LLM) senza addestramento che combina la previsione di segmenti successivi ispirata allo speculative decoding con un meccanismo di feedback online per adattare dinamicamente i pesi dei modelli, ottenendo così prestazioni superiori rispetto ai metodi esistenti su diverse famiglie di LLM e benchmark.

Bo Lv, Nayu Liu, Chen Tang, Xin Liu, Yue Yu, Ping Luo2026-03-09🤖 cs.AI

Rethinking the Mixture of Vision Encoders Paradigm for Enhanced Visual Understanding in Multimodal LLMs

Il paper presenta LEO, un'architettura semplice ed efficace che ottimizza la fusione di diversi encoder visivi tramite un approccio leggero basato su proiezioni indipendenti e intercalamento di sequenze, ottenendo prestazioni superiori su numerosi benchmark e una forte capacità di generalizzazione nel dominio della guida autonoma.

Mozhgan Nasr Azadani, James Riddell, Sean Sedwards, Krzysztof Czarnecki2026-03-09💬 cs.CL

Transforming Science with Large Language Models: A Survey on AI-assisted Scientific Discovery, Experimentation, Content Generation, and Evaluation

Questo sondaggio offre una panoramica strutturata delle tecniche, dei dataset e delle sfide etiche legate all'uso dei modelli linguistici su larga scala per assistere i ricercatori in tutte le fasi del ciclo di vita scientifico, dalla scoperta alla valutazione.

Steffen Eger, Yong Cao, Jennifer D'Souza, Andreas Geiger, Christian Greisinger, Stephanie Gross, Yufang Hou, Brigitte Krenn, Anne Lauscher, Yizhi Li, Chenghua Lin, Nafise Sadat Moosavi, Wei Zhao, Tristan Miller2026-03-09🤖 cs.AI

Conditioning LLMs to Generate Code-Switched Text

Questo lavoro propone un metodo per addestrare modelli linguistici a generare testi in codice-switching inglese-spagnolo tramite back-translation e fine-tuning, dimostrando che tale approccio produce output fluenti e che le valutazioni basate su LLM si allineano meglio al giudizio umano rispetto alle metriche tradizionali.

Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa2026-03-09🤖 cs.AI

CAReDiO: Cultural Alignment via Representativeness and Distinctiveness Guided Data Optimization

Il paper introduce CAReDiO, un innovativo framework di ottimizzazione dei dati che, massimizzando la rappresentatività e la distintività culturale attraverso obiettivi teorico-informativi, permette di allineare efficientemente modelli linguistici a 15 diverse culture utilizzando un numero ridotto di campioni di addestramento.

Jing Yao, Xiaoyuan Yi, Jindong Wang, Zhicheng Dou, Xing Xie2026-03-09💬 cs.CL

RM-R1: Reward Modeling as Reasoning

Il paper introduce i Reasoning Reward Models (ReasRMs), in particolare la famiglia RM-R1, che trasformano la modellazione delle ricompense in un compito di ragionamento tramite un meccanismo di "catena di rubriche" e un addestramento su due fasi, ottenendo prestazioni superiori rispetto a modelli proprietari e open-weight più grandi su diversi benchmark.

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

Il paper presenta EVA, un nuovo framework di apprendimento asincrono che, ispirandosi alla modellazione linguistica, genera caratteristiche evento-per-evento altamente espressive superando i metodi precedenti sia in compiti di riconoscimento che di rilevamento.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Questo articolo propone K-CAST, un metodo di steering delle attivazioni basato su kNN che mitiga dinamicamente i bias di contenuto nei modelli linguistici, migliorando significativamente la loro accuratezza nel ragionamento formale senza compromettere le capacità linguistiche multilingue.

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

Il paper introduce AdAEM, un algoritmo di valutazione auto-estensibile che genera dinamicamente domande di test per rivelare in modo più informativo e distinguibile le differenze di valori tra i modelli linguistici su larga scala, superando i limiti delle metriche statiche attuali.

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

From Raw Corpora to Domain Benchmarks: Automated Evaluation of LLM Domain Expertise

Questo lavoro presenta una pipeline automatizzata e deterministica che trasforma corpora grezzi in benchmark di completamento per valutare in modo scalabile, economico e privo di contaminazione l'expertise di dominio dei modelli linguistici, evitando la dipendenza da altri LLM o da annotazioni umane costose.

Nitin Sharma, Thomas Wolfers, Ça\u{g}atay Yıldız2026-03-09💬 cs.CL

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Il paper presenta Sysformer, un approccio innovativo che protegge i grandi modelli linguistici (LLM) congelati adattando dinamicamente i prompt di sistema tramite un modello trasformatore, migliorando significativamente la robustezza contro gli attacchi dannosi e la conformità alle richieste sicure senza richiedere un costoso riaddestramento dei parametri del modello.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

Il paper presenta VLMQ, un framework di quantizzazione post-allenamento specifico per i modelli visione-linguaggio che, identificando e mitigando la sovrarappresentazione visiva e il divario tra modalità, utilizza un fattore di importanza guidato dal gradiente per selezionare i token salienti e ottenere prestazioni all'avanguardia, specialmente nelle configurazioni a basso numero di bit.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

Agri-Query: A Case Study on RAG vs. Long-Context LLMs for Cross-Lingual Technical Question Answering

Questo studio presenta un caso di valutazione che dimostra come, per la risposta a domande tecniche cross-lingue su un manuale agricolo, le strategie di Retrieval-Augmented Generation (RAG) ibrido superino costantemente il prompting diretto con modelli LLM a contesto esteso, raggiungendo un'accuratezza superiore all'85% con modelli come Gemini 2.5 Flash e Qwen 2.5 7B.

Julius Gun, Timo Oksanen2026-03-09💬 cs.CL

CMRAG: Co-modality-based visual document retrieval and question answering

Il paper presenta CMRAG, un framework di Retrieval-Augmented Generation che supera i limiti dei metodi esistenti integrando simultaneamente testo e immagini tramite un modello di codifica unificato e una strategia di recupero co-modale, dimostrando prestazioni superiori in compiti di domande e risposte su documenti visivi complessi.

Wang Chen, Wenhan Yu, Guanqiang Qi, Weikang Li, Yang Li, Lei Sha, Deguo Xia, Jizhou Huang2026-03-09💬 cs.CL

← Precedente Successivo →