cs.CL articoli | Gist.Science

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

Il paper propone un framework di supervisione debole affidabile per il rilevamento di cornici nei social media arabi, che utilizza un pipeline multi-agente LLM per stimare l'affidabilità degli esempi e un'ottimizzazione QUBO per selezionare un sottoinsieme bilanciato e non ridondante, migliorando così le prestazioni nella previsione del sentiment.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Questo studio evidenzia come i modelli di linguaggio di grandi dimensioni (LLM) utilizzati come giudici automatizzati mostrino una significativa instabilità nei punteggi numerici assegnati a input identici, variando in base al modello, alla famiglia e alla temperatura, il che solleva preoccupazioni critiche per l'affidabilità operativa e la riproducibilità nei flussi di lavoro aziendali.

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

Lo studio dimostra che i modelli visione-linguaggio calcolano le affordance in modo fortemente dipendente dal contesto, mostrando una deriva significativa sia lessicale che semantica che suggerisce la necessità di un'ontologia dinamica e adattiva per la robotica.

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

Lo studio dimostra che l'uso di sistemi multi-agente basati su LLM di fornitori diversi migliora significativamente l'accuratezza e la sensibilità delle diagnosi cliniche rispetto alle configurazioni omogenee, grazie alla capacità di combinare bias induttivi complementari per identificare diagnosi che singoli modelli o team uniformi mancherebbero.

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Questo studio presenta un metodo di auto-istruzione consapevole della conformità, integrato con un pipeline di verifica a 26 filtri e tecniche LoRA, per generare dialoghi radio marittimi realistici e conformi allo SMCP dell'IMO, al fine di colmare la carenza di dati ad alta qualità necessari per i sistemi di sicurezza marittima basati sull'intelligenza artificiale.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

Il paper introduce il sistema di valutazione "What Is Missing" (WIM), che trasforma il feedback testuale in un punteggio numerico basato sulla similarità semantica tra l'output del modello e la descrizione delle informazioni mancanti, offrendo segnali di apprendimento più distinti e interpretabili rispetto alle tradizionali valutazioni numeriche dirette.

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Questa rassegna sistematica analizza le strategie di routing dinamico e cascading tra diversi modelli linguistici di grandi dimensioni (LLM), proponendo un quadro concettuale per ottimizzare il compromesso tra costi computazionali e prestazioni adattando la selezione del modello alla complessità della query.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Il paper introduce SkillNet, un'infrastruttura aperta che crea, valuta e organizza competenze AI su larga scala attraverso un'ontologia unificata e un repository di oltre 200.000 competenze, migliorando significativamente le prestazioni degli agenti riducendo la necessità di reinventare soluzioni già esistenti.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Questo studio presenta il primo framework end-to-end per lo sviluppo di modelli linguistici specializzati nella scienza della combustione, basato su un vasto database multimodale e un percorso di iniezione di conoscenza in tre fasi che dimostra come l'uso di grafi della conoscenza e il pre-addestramento continuato siano necessari per superare i limiti delle tecniche di recupero standard.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Questo studio rivela una nuova modalità di fallimento nei modelli linguistici visivi multimodali, dimostrando che l'ottimizzazione di una funzione di perdita volta a massimizzare l'instabilità numerica genera immagini che degradano significativamente le prestazioni del modello con modifiche minime, un fenomeno distinto dalle tradizionali perturbazioni avversarie.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

Questo studio dimostra che riscrivere le query per ridurre l'ambiguità utilizzando un contesto di riferimento privo di risposte, piuttosto che limitarsi a inserirlo nel prompt, raddoppia le prestazioni dei modelli linguistici su benchmark complessi come Humanity's Last Exam.

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Questo studio dimostra che il benchmark di recupero FreshStack rimane affidabile nel tempo nonostante la deriva del corpus, poiché le modifiche temporali causano principalmente la migrazione dei documenti rilevanti tra repository concorrenti senza alterare significativamente le classifiche dei modelli di recupero.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

Il paper propone A-MAC, un framework che gestisce l'ammissione della memoria negli agenti LLM attraverso un processo decisionale strutturato basato su cinque fattori interpretabili, ottenendo risultati superiori in termini di precisione e latenza rispetto ai sistemi esistenti.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

Questo articolo presenta una panoramica completa dei modelli linguistici di grandi dimensioni (LLM) in streaming, proponendo una definizione unificata, una tassonomia sistematica e una discussione sulle metodologie, le applicazioni reali e le future direzioni di ricerca per colmare il divario tra l'inferenza statica e l'interazione dinamica in tempo reale.

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Il paper presenta GOLF, un framework di reinforcement learning che sfrutta feedback linguistici di gruppo, combinando critiche esterne e tentativi interni, per guidare un'esplorazione mirata e migliorare l'efficienza del campionamento rispetto ai metodi basati su ricompense scalari.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Il paper presenta "Vibe Code Bench", un nuovo benchmark che valuta la capacità dei modelli AI di sviluppare applicazioni web end-to-end da zero, rivelando che le prestazioni attuali sono ancora limitate e identificando l'autotesting come un predittore chiave del successo.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

Questo paper propone un metodo di generazione potenziata dal recupero che, integrando l'allineamento semantico e vincoli espliciti sulle evidenze in un quadro unificato, risolve i problemi di disallineamento semantico e utilizzo insufficiente delle fonti per migliorare l'affidabilità fattuale e la verificabilità dei contenuti generati dai grandi modelli linguistici.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

Il paper presenta iAgentBench, un nuovo benchmark dinamico per valutare le capacità di sintesi e integrazione di informazioni da più fonti degli agenti di ricerca, superando i limiti dei test attuali che si basano spesso sul recupero di un singolo passaggio.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

Il paper presenta "Stan", un assistente didattico basato su modelli linguistici locali e open-weight per un corso di termodinamica, che supporta simultaneamente studenti e docenti tramite un'unica pipeline di dati, garantendo privacy, costi prevedibili e riproducibilità senza dipendenze da API cloud.

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

Questo studio dimostra che l'approccio multimodale, che combina modelli linguistici e analisi visiva tramite GPT-4.1-nano, supera i metodi unimodali nel prevedere la difficoltà degli item di alfabetizzazione alla visualizzazione dei dati, offrendo un potenziale significativo per l'analisi psicometrica e lo sviluppo automatizzato di test.

Samin Khan2026-03-06💻 cs

← Precedente Successivo →