cs.CL articoli | Gist.Science

MultiWikiQA: A Reading Comprehension Benchmark in 300+ Languages

Il paper introduce MultiWikiQA, un nuovo dataset di comprensione del testo generato con LLM e validato da valutazioni umane, che copre 306 lingue con oltre 1,2 milioni di campioni per valutare le prestazioni e le disparità linguistiche dei modelli attuali.

Dan Saattrup Smart2026-03-05💬 cs.CL

Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models

Il paper propone un framework di pruning dei token leggero che preserva gli indici, filtrando le regioni non informative delle immagini di documenti tramite un classificatore binario e un raffinamento con max-pooling per ridurre i costi computazionali dei modelli visione-linguaggio mantenendo l'accuratezza.

Jaemin Son, Sujin Choi, Inyong Yun2026-03-05🤖 cs.AI

See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

Il paper propone StaR, un metodo di ragionamento multimodale che identifica lo stato degli interruttori nelle interfacce grafiche per migliorare l'accuratezza degli agenti nell'esecuzione di comandi di toggle, superando le limitazioni delle soluzioni attuali.

Zongru Wu, Rui Mao, Zhiyuan Tian + 7 more2026-03-05🤖 cs.AI

Trust Me, I Can Convince You: The Contextualized Argument Appraisal Framework

Questo studio propone il Framework di Valutazione degli Argomenti Contestualizzati (ContArgA), un nuovo modello che integra le teorie psicologiche di valutazione cognitiva per analizzare come le emozioni, le caratteristiche individuali e la familiarità con l'argomento influenzino la persuasività, validato attraverso un corpus di 4000 annotazioni raccolte con un innovativo setup di gioco di ruoli.

Lynn Greschner, Sabine Weber, Roman Klinger2026-03-05💬 cs.CL

Non-Collaborative User Simulators for Tool Agents

Questo lavoro propone un nuovo simulatore di utenti non collaborativi che genera comportamenti realistici come richieste di servizi indisponibili e digressioni, rivelando la significativa fragilità degli agenti tool attuali e fornendo un framework open-source per migliorarne la robustezza.

Jeonghoon Shim, Woojung Song, Cheyon Jin + 2 more2026-03-05💬 cs.CL

Towards Personalized Deep Research: Benchmarks and Evaluations

Questo lavoro introduce il PDR-Bench, il primo benchmark per valutare l'adattamento personalizzato degli agenti di ricerca profonda, accompagnato dal framework PQR per misurare l'allineamento personalizzato, la qualità del contenuto e l'affidabilità fattuale.

Yuan Liang, Jiaxian Li, Yuqing Wang + 11 more2026-03-05🤖 cs.AI

GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data

Il paper presenta GraphMERT, un modello neurale leggero ed efficiente che supera i grandi modelli linguistici nella generazione di grafi della conoscenza affidabili, scalabili e semanticamente validi partendo da testi non strutturati, risolvendo così le sfide di scalabilità e interpretabilità dell'intelligenza artificiale neurosimbolica.

Margarita Belova, Jiaxin Xiao, Shikhar Tuli + 1 more2026-03-05🤖 cs.AI

The Geometry of Reasoning: Flowing Logics in Representation Space

Questo studio propone un nuovo quadro geometrico che modella il ragionamento dei grandi modelli linguistici come flussi nello spazio delle rappresentazioni, dimostrando come essi interiorizzino invarianze logiche indipendentemente dal significato semantico e sfidando così l'ipotesi che siano semplici "pappagalli stocastici".

Yufa Zhou, Yixiao Wang, Xunjian Yin + 2 more2026-03-05🤖 cs.AI

Circuit Insights: Towards Interpretability Beyond Activations

Il paper propone WeightLens e CircuitLens, due metodi complementari che superano l'analisi basata sulle attivazioni per interpretare direttamente i pesi e catturare le dinamiche circuitali, migliorando così la robustezza e la scalabilità dell'interpretabilità meccanica.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

Composition-Grounded Data Synthesis for Visual Reasoning

Il paper presenta COGS, un framework di sintesi dati basato sulla composizione che potenzia le capacità di ragionamento dei modelli linguistici multimodali preaddestrati su domini artificiali come grafici e pagine web, decomponendo le domande in fattori primitici per generare coppie domanda-risposta sintetiche addestrate con ricompense di processo a livello fattoriale.

Xinyi Gu, Jiayuan Mao, Zhang-Wei Hong + 5 more2026-03-05🤖 cs.LG

Annotation-Efficient Universal Honesty Alignment

Il paper introduce EliCal, un framework a due stadi che combina l'auto-coerenza a basso costo con una minima annotazione di correttezza per ottenere un allineamento all'onestà universale negli LLM, supportato dal nuovo benchmark HonestyBench.

Shiyu Ni, Keping Bi, Jiafeng Guo + 4 more2026-03-05💬 cs.CL

Citation Failure: Definition, Analysis and Efficient Mitigation

Questo lavoro propone un'analisi del fallimento delle citazioni nei sistemi RAG basati su LLM, introducendo il benchmark CITECONTROL per studiarne le cause e il framework CITENTION per mitigarle in modo efficiente integrando diversi metodi di generazione e recupero.

Jan Buchmann, Iryna Gurevych2026-03-05💬 cs.CL

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

Il paper presenta REVISION, un nuovo framework che integra il mining offline delle intenzioni implicite degli utenti e il ragionamento online basato su grandi modelli linguistici per ottimizzare i sistemi di ricerca visiva su Taobao, riducendo significativamente il tasso di richieste senza click.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Il paper presenta MuSaG, il primo dataset tedesco multimodale per il rilevamento dell'ironia, che integra testo, audio e video con annotazioni umane per evidenziare il divario tra le prestazioni dei modelli attuali e quelle umane, specialmente nell'utilizzo dei segnali acustici.

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Questo lavoro introduce l'Agent Data Protocol (ADP), un linguaggio di rappresentazione leggero che unifica dataset eterogenei per agenti AI, consentendo un addestramento supervisionato scalabile che migliora le prestazioni dei modelli di base del 20% e raggiunge risultati all'avanguardia su benchmark di coding, navigazione e utilizzo di strumenti senza necessità di ottimizzazioni specifiche per dominio.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

Il paper presenta CareMedEval, un nuovo dataset derivato da esami medici francesi per valutare le capacità di ragionamento critico e di analisi delle fonti scientifiche nei modelli linguistici, evidenziando le attuali limitazioni degli LLM in questo ambito nonostante i miglioramenti ottenuti con la generazione di passaggi intermedi.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Dutch Metaphor Extraction from Cancer Patients' Interviews and Forum Data using LLMs and Human in the Loop

Questo lavoro presenta HealthQuote.NL, un corpus di metafore estratte da dati in lingua olandese di pazienti oncologici utilizzando modelli linguistici avanzati e un approccio con supervisione umana, con l'obiettivo di migliorare la comunicazione sanitaria e l'assistenza personalizzata.

Lifeng Han, David Lindevelt, Sander Puts + 2 more2026-03-05💬 cs.CL

Categorical Emotions or Appraisals - Which Emotion Model Explains Argument Convincingness Better?

Questo studio dimostra che, rispetto alle emozioni categoriali, le teorie delle valutazioni cognitive (appraisals) spiegano meglio la persuasività degli argomenti analizzando le valutazioni soggettive dei destinatari.

Lynn Greschner, Meike Bauer, Sabine Weber + 1 more2026-03-05💬 cs.CL

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

Questo studio dimostra che è possibile sviluppare un modello linguistico multimodale efficace per la lingua basca utilizzando una bassa percentuale di dati multimodali in quella lingua e un modello linguistico di base non adattato, rilasciando al contempo risorse open source per altre lingue a risorse limitate.

Lukas Arana, Julen Etxaniz, Ander Salaberria + 1 more2026-03-05🤖 cs.AI

Dripper: Token-Efficient Main HTML Extraction with a Lightweight LM

Il paper presenta Dripper, un framework basato su modelli linguistici di piccole dimensioni che risolve il compromesso tra efficienza e accuratezza nell'estrazione del contenuto principale dalle pagine web, superando sia gli estrattori euristici tradizionali che i grandi modelli generativi grazie a un nuovo approccio di etichettatura sequenziale vincolata, a un benchmark rigoroso e a un corpus pre-addestrato di alta qualità.

Mengjie Liu, Jiahui Peng, Wenchang Ning + 14 more2026-03-05💬 cs.CL

← Precedente Successivo →