cs.CL articoli | Gist.Science

MaBERT:A Padding Safe Interleaved Transformer Mamba Hybrid Encoder for Efficient Extended Context Masked Language Modeling

Il paper presenta MaBERT, un nuovo modello ibrido che combina l'efficienza lineare di Mamba con la capacità di modellazione globale dei Transformer, introducendo tecniche di mascheramento specifiche per gestire in modo sicuro e veloce contesti estesi senza contaminazione dovuta al padding.

Jinwoong Kim, Sangjin Park2026-03-04💬 cs.CL

TrustMH-Bench: A Comprehensive Benchmark for Evaluating the Trustworthiness of Large Language Models in Mental Health

Il paper presenta TrustMH-Bench, un benchmark olistico che valuta l'affidabilità dei modelli linguistici di grandi dimensioni in ambito di salute mentale attraverso otto pilastri fondamentali, rivelando carenze significative nelle prestazioni attuali anche dei modelli più potenti.

Zixin Xiong, Ziteng Wang, Haotian Fan + 2 more2026-03-04💬 cs.CL

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Il paper introduce TikZilla, una famiglia di modelli linguistici open-source addestrati su un nuovo dataset di alta qualità (DaTikZ-V4) e ottimizzati tramite un processo di apprendimento per rinforzo con segnali di ricompensa visiva, che supera le prestazioni dei modelli più grandi come GPT-4o nella generazione di figure scientifiche TikZ da testo.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

Il paper propone TAO-Attack, un nuovo metodo di jailbreak basato sull'ottimizzazione che utilizza una funzione di perdita a due stadi e una strategia di ottimizzazione dei token basata sulla priorità della direzione per superare le difese dei modelli linguistici su larga scala con tassi di successo superiori agli approcci esistenti.

Zhi Xu, Jiaqi Li, Xiaotong Zhang + 2 more2026-03-04💬 cs.CL

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

Questo articolo propone un approccio innovativo basato su modelli linguistici di grandi dimensioni istruiti con prompt compatti per trattare la rilevazione congiunta dei componenti argomentativi come un compito di generazione linguistica, ottenendo prestazioni superiori rispetto agli stati dell'arte su benchmark standard.

Sofiane Elguendouze, Erwan Hain, Elena Cabrio + 1 more2026-03-04💬 cs.CL

Interpreting Speaker Characteristics in the Dimensions of Self-Supervised Speech Features

Questo studio dimostra che le caratteristiche del parlante, come il tono, il genere e l'intensità, sono codificate in dimensioni specifiche dei modelli di apprendimento auto-supervisionato (come WavLM) e possono essere controllate modificando tali dimensioni per applicazioni di sintesi vocale.

Kyle Janse van Rensburg, Benjamin van Niekerk, Herman Kamper2026-03-04⚡ eess

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Questo studio introduce un benchmark a matrice di commutazione che dimostra come il passaggio tra modelli diversi in sistemi LLM multi-turno generi una deriva delle prestazioni significativa e sistematica, evidenziando la necessità di monitorare la robustezza delle transizioni come dimensione critica di affidabilità operativa.

Raad Khraishi, Iman Zafar, Katie Myles + 1 more2026-03-04💬 cs.CL

UniSkill: A Dataset for Matching University Curricula to Professional Competencies

Il paper presenta UniSkill, un nuovo dataset che collega i corsi universitari alle competenze professionali della tassonomia ESCO, fornendo linee guida di annotazione e dimostrando attraverso un modello BERT l'efficacia del matching tra corsi e competenze con un punteggio F1 dell'87%.

Nurlan Musazade, Joszef Mezei, Mike Zhang2026-03-04💬 cs.CL

APRES: An Agentic Paper Revision and Evaluation System

Il paper introduce APRES, un sistema basato su modelli linguistici che revisiona automaticamente i testi scientifici per migliorarne la chiarezza e l'impatto (prevedendo un aumento delle citazioni del 19,6%) senza alterarne il contenuto sostanziale, ottenendo il 79% di preferenze da parte di esperti umani.

Bingchen Zhao, Jenny Zhang, Chenxi Whitehouse + 8 more2026-03-04💬 cs.CL

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Il paper propone un metodo di generazione aumentata da recupero (RAG) consapevole dei tipi che, costruendo una base di conoscenza strutturata e calcolando un contesto di dipendenza minimo, garantisce la traduzione affidabile di requisiti industriali in modelli di ottimizzazione eseguibili dai solver, superando i limiti delle approcci RAG convenzionali.

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Questo lavoro propone MoD-DPO, un framework di ottimizzazione delle preferenze che mitiga le allucinazioni cross-modali nei modelli linguistici omni-modali introducendo regolarizzazioni specifiche per le modalità e penalità contro i pregiudizi testuali, migliorando così l'accuratezza percettiva e la robustezza del modello.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Il paper introduce BeyondSWE, un nuovo benchmark che valuta gli agenti di codice su compiti realistici e complessi oltre la semplice correzione di bug in un singolo repository, rivelando le attuali limitazioni dei modelli e l'efficacia inconsistente dell'arricchimento tramite ricerca tramite il framework SearchSWE.

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Il paper introduce ACE-Brain-0, un modello fondazionale generale che unifica ragionamento spaziale, guida autonoma e manipolazione robotica sfruttando l'intelligenza spaziale come scaffold universale e il paradigma SSR per superare le sfide dell'addestramento su embodiment eterogenei, ottenendo prestazioni all'avanguardia su 24 benchmark.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Il paper presenta MOSAIC, un framework di post-addestramento che allinea i modelli linguistici agenti per un uso sicuro degli strumenti multi-step, strutturando l'inferenza in un ciclo di pianificazione, verifica e azione o rifiuto, e utilizzando l'apprendimento per rinforzo basato su preferenze per ridurre significativamente i comportamenti dannosi e le fughe di dati senza compromettere le prestazioni nei compiti benigni.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

Understanding and Mitigating Dataset Corruption in LLM Steering

Questo studio dimostra che, sebbene il contrastive steering per i LLM sia robusto a una moderata corruzione dei dati, è vulnerabile ad alterazioni maliziose su larga scala, ma tale problema può essere efficacemente mitigato sostituendo il calcolo della media standard con un stimatore robusto della media.

Cullen Anderson, Narmeen Oozeer, Foad Namjoo + 3 more2026-03-04💬 cs.CL

Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals

Il documento presenta DGRO, un metodo che allinea i modelli linguistici alle norme delle comunità online sfruttando la densità geometrica delle risposte implicitamente accettate, eliminando così la necessità di supervisione esplicita tramite preferenze.

Patrick Gerard, Svitlana Volkova2026-03-04💬 cs.CL

Using Learning Progressions to Guide AI Feedback for Science Learning

Questo studio dimostra che un sistema di generazione automatica di rubriche basato sulle progressioni di apprendimento può produrre feedback di qualità da parte dell'intelligenza artificiale paragonabile a quello generato da esperti umani per le spiegazioni scientifiche scritte degli studenti.

Xin Xia, Nejla Yuruk, Yun Wang + 1 more2026-03-04💬 cs.CL

Factuality Challenges in the Era of Large Language Models

Questo articolo esamina le sfide di fattualità e i rischi di disinformazione posti dalle grandi modelli linguistici, proponendo soluzioni tecnologiche, normative e di alfabetizzazione per garantire la veridicità nell'era dell'IA generativa.

Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha + 15 more2026-03-03💬 cs.CL

Using ChatGPT for Data Science Analyses

Questo articolo valuta il potenziale di ChatGPT come co-pilota nei flussi di lavoro di data science, esaminando le sue capacità nell'esplorazione dei dati, nella visualizzazione e nelle attività di modellazione supervisionata e non supervisionata, pur sottolineando la necessità di considerare attentamente i suoi limiti nell'analisi empirica.

Ozan Evkaya, Miguel de Carvalho2026-03-03📊 stat

Large Language Model Agent in Financial Trading: A Survey

Questa rassegna offre una panoramica completa sull'uso degli agenti basati su modelli linguistici di grandi dimensioni (LLM) nel trading finanziario, analizzandone architetture, dati, prestazioni e sfide per delineare le future direzioni di ricerca.

Han Ding, Yinheng Li, Junhao Wang + 3 more2026-03-03💬 cs.CL

← Precedente Successivo →