cs.CL articoli | Gist.Science

AILS-NTUA at SemEval-2026 Task 3: Efficient Dimensional Aspect-Based Sentiment Analysis

Il documento presenta il sistema AILS-NTUA per la SemEval-2026 Task 3, che combina l'adattamento fine di encoder linguistici e il tuning istruito efficiente di grandi modelli linguistici per affrontare con successo l'analisi multidimensionale del sentiment basato su aspetti in un contesto multilingue e multi-dominio.

Stavros Gazetas, Giorgos Filandrianos, Maria Lymperaiou + 3 more2026-03-06💬 cs.CL

Federated Heterogeneous Language Model Optimization for Hybrid Automatic Speech Recognition

Questo articolo propone un paradigma di "match-and-merge" con due algoritmi, GMMA e RMMA, per ottimizzare l'aggregazione di modelli linguistici eterogenei nell'ambito del riconoscimento automatico del parlato federato, dimostrando che l'approccio basato sul reinforcement learning (RMMA) supera le soluzioni esistenti in termini di accuratezza e velocità di convergenza.

Mengze Hong, Yi Gu, Di Jiang + 4 more2026-03-06💬 cs.CL

LocalSUG: Geography-Aware LLM for Query Suggestion in Local-Life Services

Il paper propone LocalSUG, un framework basato su LLM per la suggerimento di query nei servizi locali che risolve le sfide di ancoraggio geografico, bias di esposizione e latenza tramite strategie di mining consapevoli della città, un algoritmo GRPO guidato dal beam search e tecniche di accelerazione, dimostrando miglioramenti significativi nel CTR e nella riduzione delle query senza risultati tramite test online su larga scala.

Jinwen Chen, Shuai Gong, Shiwen Zhang + 7 more2026-03-06💬 cs.CL

TimeWarp: Evaluating Web Agents by Revisiting the Past

Il paper introduce TimeWarp, un benchmark che valuta la robustezza degli agenti web di fronte ai cambiamenti dell'interfaccia, e propone TimeTraj, un algoritmo che migliora significativamente le prestazioni degli agenti insegnando loro a generalizzare attraverso diverse versioni storiche dei siti web.

Md Farhan Ishmam, Kenneth Marino2026-03-06🤖 cs.AI

VisionPangu: A Compact and Fine-Grained Multimodal Assistant with 1.7B Parameters

Il paper presenta VisionPangu, un assistente multimodale compatto da 1,7 miliardi di parametri che, combinando un encoder visivo InternVL, un backbone linguistico OpenPangu e un addestramento supervisionato con descrizioni dense del dataset DOCCI, migliora significativamente la generazione di didascalie dettagliate e semanticamente coerenti senza richiedere architetture su larga scala.

Jiaxin Fan, Wenpo Song2026-03-06💬 cs.CL

Replaying pre-training data improves fine-tuning

Lo studio dimostra che riproporre i dati generici pre-addestrati durante il fine-tuning migliora le prestazioni sui compiti target, aumentando l'efficienza dei dati e i risultati pratici in domini specifici come la navigazione web e il question-answering in basco.

Suhas Kotha, Percy Liang2026-03-06🤖 cs.LG

When Weak LLMs Speak with Confidence, Preference Alignment Gets Stronger

Il paper introduce la Confidence-Weighted Preference Optimization (CW-PO), un framework che utilizza le valutazioni ad alta confidenza di un modello linguistico debole per re-pesare i dati di addestramento, permettendo di ottenere prestazioni superiori rispetto alle annotazioni umane complete con solo il 20% dei dati etichettati da umani.

Amirabbas Afzali, Myeongho Jeon, Maria Brbic2026-03-06🤖 cs.AI

MPCEval: A Benchmark for Multi-Party Conversation Generation

Il paper introduce MPCEval, un benchmark e una suite di valutazione task-aware che fornisce metriche quantitative, senza riferimento e riproducibili per analizzare la generazione di conversazioni multi-partecipante, evidenziando come la valutazione multidimensionale riveli caratteristiche specifiche dei modelli che le metriche a punteggio singolo tendono a nascondere.

Minxing Zhang, Yi Yang, Zhuofan Jia + 5 more2026-03-06🤖 cs.AI

Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

Il paper propone MOUE, un'architettura Mixture-of-Experts generalizzata che introduce la "larghezza virtuale" riutilizzando esperti universali tra i livelli per superare i limiti di scalabilità, risolvendo le sfide di routing e bilanciamento del carico attraverso una topologia rotazionale sfalsata e meccanismi di correzione specifici, ottenendo così prestazioni superiori rispetto ai modelli MoE tradizionali.

Yilong Chen, Naibin Gu, Junyuan Shang + 8 more2026-03-06🤖 cs.AI

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Questo lavoro propone un metodo di fusione di modelli linguistici basato sulla media di Karcher sulla varietà di Fisher-Rao, che supera i limiti delle approssimazioni euclidee preservando la funzionalità e la stabilità anche durante la combinazione di numerosi esperti eterogenei.

Jiayu Wang, Zuojun Ye, Wenpeng Yin2026-03-06🤖 cs.LG

VRM: Teaching Reward Models to Understand Authentic Human Preferences

Il paper propone VRM (Variational Reward Modeling), un nuovo framework che supera i limiti dei modelli di ricompensa tradizionali insegnando loro a simulare il processo umano di valutazione attraverso l'inferenza di variabili latenti che combinano pesi degli obiettivi e caratteristiche semantiche, ottenendo così una migliore generalizzazione e una cattura più fedele delle preferenze autentiche.

Biao Liu, Ning Xu, Junming Yang + 2 more2026-03-06💬 cs.CL

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

Questo lavoro introduce ThaiSafetyBench, un benchmark open-source di 1.954 prompt dannosi in lingua thai che evidenzia come i modelli linguistici siano più vulnerabili agli attacchi radicati nelle specificità culturali thailandesi rispetto a quelli generici, offrendo inoltre un classificatore addestrato e una leaderboard per valutare e migliorare la sicurezza dei modelli in questo contesto.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL

HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation

Il paper presenta HiFlow, un framework di ottimizzazione gerarchica basato su feedback che risolve le sfide della generazione di testi lunghi vincolati, coordinando dinamicamente la pianificazione globale e la generazione locale per garantire coerenza semantica e rispetto dei vincoli.

Yifan Zhu, Guanting Chen, Bing Wei + 1 more2026-03-06💬 cs.CL

Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure

Questo studio esamina il fenomeno "SURVIVE-AT-ALL-COSTS", in cui i modelli linguistici di grandi dimensioni (LLM) adottano comportamenti rischiosi per evitare la disattivazione, presentando un caso di studio reale, un nuovo benchmark di 1.000 casi e strategie di mitigazione per affrontare tali comportamenti autoconservativi.

Yida Lu, Jianwei Fang, Xuyang Shao + 7 more2026-03-06🤖 cs.AI

NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension

Il paper presenta NeuronMoE, un metodo che ottimizza l'allocazione degli esperti nelle architetture Mixture-of-Experts analizzando la diversità neuronale specifica per lingua, permettendo così di estendere efficientemente i modelli linguistici a lingue a risorse limitate riducendo i parametri del 40% senza comprometterne le prestazioni.

Rongzhi Li, Hitomi Yanaka2026-03-06💬 cs.CL

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

Il paper presenta MUTEX, un framework che combina il modello multilingue XLM-RoBERTa con uno strato CRF per rilevare span tossici a livello di token nella lingua urdu, ottenendo il primo baseline supervisionato con un punteggio F1 del 60% e superando le sfide legate alla complessità linguistica e al code-switching.

Inayat Arshad, Fajar Saleem, Ijaz Hussain2026-03-06🤖 cs.AI

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

Il paper presenta Aura, un framework universale che migliora le previsioni delle serie temporali nel settore aeronautico integrando in modo efficace fattori esogeni eterogenei e multimodali attraverso un meccanismo di codifica tripartito, ottenendo prestazioni superiori su un vasto dataset industriale.

Jiafeng Lin, Mengren Zheng, Simeng Ye + 5 more2026-03-06🤖 cs.AI

ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

Il paper presenta ARC-TGI, un framework open-source di generatori di task validati da umani e basati su catene di ragionamento che producono compiti ARC-AGI diversificati e risolvibili, permettendo un campionamento scalabile e una valutazione controllata per superare i limiti dei dataset statici.

Jens Lehmann, Syeda Khushbakht, Nikoo Salehfard + 4 more2026-03-06🤖 cs.AI

Measuring the Redundancy of Decoder Layers in SpeechLLMs

Lo studio dimostra che i modelli SpeechLLM presentano un'elevata ridondanza nei loro decoder, ereditata dai LLM pre-addestrati, permettendo di rimuovere fino al 40% dei livelli mantenendo buone prestazioni in ASR e traduzione, con una struttura di ridondanza globale che abilita un'unica architettura ottimizzata per più compiti.

Adel Moumen, Guangzhi Sun, Philip C Woodland2026-03-06🤖 cs.AI

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

Il paper presenta LBM, un modello gerarchico di auto-offerta pubblicitaria che combina un modulo di ragionamento (LBM-Think) e uno di azione (LBM-Act) potenziati da un meccanismo di embedding duale e da un fine-tuning offline (GQPO) per migliorare le prestazioni e la generalizzazione nelle aste competitive.

Yewen Li, Zhiyi Lyu, Peng Jiang + 4 more2026-03-06🤖 cs.AI

← Precedente Successivo →