cs.CL articoli | Gist.Science

VeriTrail: Closed-Domain Hallucination Detection with Traceability

Il paper presenta VeriTrail, il primo metodo di rilevamento delle allucinazioni in domini chiusi che offre tracciabilità per i processi a step generativo singolo e multipli, supportato da nuovi dataset annotati che includono sia le uscite intermedie che le valutazioni di fedeltà.

Dasha Metropolitansky, Jonathan Larson2026-03-03💬 cs.CL

RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments

Il paper presenta RedTeamCUA, un framework di testing avversario e il relativo benchmark RTC-Bench che, attraverso un ambiente ibrido web-OS realistico, evidenzia vulnerabilità critiche e alti tassi di successo negli attacchi di iniezione di prompt indiretti nei moderni agenti di uso informatico, sottolineando l'urgenza di sviluppare difese robuste prima del loro dispiegamento reale.

Zeyi Liao, Jaylen Jones, Linxi Jiang + 5 more2026-03-03💬 cs.CL

CityLens: Evaluating Large Vision-Language Models for Urban Socioeconomic Sensing

Il paper introduce CityLens, un benchmark completo che valuta le capacità dei modelli visivo-linguistici su larga scala nel prevedere indicatori socioeconomici urbani analizzando immagini satellitari e stradali di 17 città globali attraverso 11 task e 3 paradigmi di valutazione.

Tianhui Liu, Hetian Pang, Xin Zhang + 5 more2026-03-03💬 cs.CL

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Il paper introduce OmniSpatial, un benchmark completo basato sulla psicologia cognitiva con oltre 8.400 coppie di domande e risposte per valutare le capacità di ragionamento spaziale avanzato dei modelli visione-linguaggio, evidenziando le loro attuali limitazioni e proponendo strategie come PointGraph e SpatialCoT per migliorarle.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Il paper propone un approccio di meta-apprendimento che migliora le capacità few-shot dei Large Multimodal Models per il Visual Question Answering distillando prompt soft da caratteristiche visive rilevanti tramite un modulo mappatore di attenzione, superando significativamente sia l'apprendimento in contesto che i metodi di finetuning efficiente.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

VINCIE: Unlocking In-context Image Editing from Video

Il paper introduce VINCIE, un modello basato su trasformatori di diffusione che impara l'editing di immagini in contesto direttamente da video, superando le dipendenze da pipeline specifiche e ottenendo risultati all'avanguardia su benchmark multi-turno.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Equitable Electronic Health Record Prediction with FAME: Fairness-Aware Multimodal Embedding

Il paper introduce FAME, un framework di embedding multimodale consapevole dell'equità che ottimizza simultaneamente le prestazioni predittive e la giustizia nei dati delle cartelle cliniche elettroniche pesando dinamicamente i diversi modali in base al loro contributo all'equità.

Nikkie Hooman, Zhongjie Wu, Eric C. Larson + 1 more2026-03-03💬 cs.CL

Language Agents for Hypothesis-driven Clinical Decision Making with Reinforcement Learning

Questo articolo presenta LA-CDM, un agente linguistico basato sull'apprendimento per rinforzo e supervisionato che supporta il processo decisionale clinico dinamico e iterativo attraverso una generazione di ipotesi guidata dall'incertezza, dimostrando miglioramenti nelle prestazioni diagnostiche e nell'efficienza sul dataset reale MIMIC-CDM.

David Bani-Harouni, Chantal Pellegrini, Ege Özsoy + 2 more2026-03-03💬 cs.CL

AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents

Il paper introduce AgentSynth, una pipeline scalabile ed economica che genera automaticamente oltre 6.000 task complessi e realistici per agenti informatici generalisti, sfruttando l'asimmetria informativa per creare un benchmark discriminante a costi irrisori rispetto all'annotazione umana.

Jingxu Xie, Dylan Xu, Xuandong Zhao + 1 more2026-03-03💬 cs.CL

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models

Il paper presenta GenRecal, un framework di distillazione generale per modelli visione-linguaggio che, grazie a un modulo di ricalibrazione, supera le incompatibilità architetturali tra modelli di diverse dimensioni, permettendo a modelli più piccoli di raggiungere prestazioni superiori rispetto a sistemi open- e closed-source su larga scala.

Byung-Kwan Lee, Ryo Hachiuma, Yong Man Ro + 2 more2026-03-03💬 cs.CL

OJBench: A Competition Level Code Benchmark For Large Language Models

Il paper presenta OJBench, un nuovo benchmark competitivo composto da 232 problemi di programmazione tratti da NOI e ICPC, che rivela come anche i modelli di linguaggio più avanzati faticino a risolvere compiti di ragionamento su codice di livello agonistico.

Zhexu Wang, Yiping Liu, Yejie Wang + 9 more2026-03-03💬 cs.CL

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Questo lavoro propone un quadro teorico basato sulla decomposizione del rumore per analizzare quando e perché la strategia "dividi e conquista" con chunking multi-agente è efficace per gestire contesti lunghi negli LLM, dimostrando sperimentalmente che tale approccio può superare modelli più avanzati applicati in un'unica passata.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Il paper introduce LongWriter-Zero, un approccio basato sul reinforcement learning che, partendo da zero senza dati sintetici, permette ai modelli linguistici di generare testi ultra-lunghi di alta qualità, superando le prestazioni dei metodi tradizionali e di modelli molto più grandi.

Yuhao Wu, Yushi Bai, Zhiqiang Hu + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Questo lavoro presenta TTSDS2, una metrica di valutazione robusta e un insieme di risorse multilingue che superano le limitazioni dei metodi attuali, garantendo una correlazione significativa con i giudizi umani e offrendo un benchmark aggiornato per sistemi di sintesi vocale di alta qualità.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

Lo studio dimostra che, sebbene il post-addestramento con rinforzo (RPT) migliori significativamente le capacità di ragionamento dei modelli linguistici su domini simili ai dati di addestramento, tali guadagni si trasferiscono in modo incoerente e possono annullarsi su domini non visti con pattern di ragionamento diversi.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann + 4 more2026-03-03💬 cs.CL

Cognitive models can reveal interpretable value trade-offs in language models

Questo studio dimostra che l'applicazione di modelli cognitivi, originariamente sviluppati per analizzare i compromessi valoriali umani, permette di valutare in modo interpretabile e sistematico le dinamiche di allineamento e le preferenze comportamentali dei modelli linguistici, rivelando come fattori come il ragionamento, i prompt di sistema e le fasi di post-training influenzino tali trade-off.

Sonia K. Murthy, Rosie Zhao, Jennifer Hu + 4 more2026-03-03💬 cs.CL

DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

Il paper introduce DAPFAM, un nuovo dataset a livello familiare per brevetti con partizioni intra- e inter-dominio, che evidenzia attraverso 249 esperimenti un significativo divario prestazionale nella ricerca di prior art tra domini tecnologici diversi, offrendo una piattaforma riproducibile per lo sviluppo di sistemi di recupero più robusti.

Iliass Ayaou, Denis Cavallucci, Hicham Chibane2026-03-03💬 cs.CL

XISM: an eXploratory and Interactive Graph Tool to Visualize and Evaluate Semantic Map Models

Il paper presenta XISM, un sistema interattivo che combina inferenza basata sui dati e conoscenza esperta per generare e raffinare mappe semantiche in modo trasparente, controllabile ed efficiente, risolvendo il compromesso tra scalabilità e interpretabilità.

Zhu Liu, Zhen Hu, Lei Dai + 2 more2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

Il paper propone FrugalRAG, un framework di due fasi che combina finetuning supervisionato e apprendimento per rinforzo per ridurre adattivamente il numero di passaggi di recupero nelle domande a più hop, ottenendo un ottimo compromesso tra accuratezza ed efficienza con un set di dati minimo.

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Il paper presenta SASFT, un metodo di fine-tuning supervisionato guidato da autoencoder sparsi che riduce efficacemente il cambio di codice indesiderato nei modelli linguistici di grandi dimensioni mantenendo le loro capacità multilingue.

Boyi Deng, Yu Wan, Baosong Yang + 3 more2026-03-03💬 cs.CL

← Precedente Successivo →