cs.CL articoli | Gist.Science

Query-focused and Memory-aware Reranker for Long Context Processing

Il paper propone un framework di reranking leggero e memory-aware che utilizza i punteggi di attenzione di modelli di piccole dimensioni per stimare la rilevanza tra query e passaggi, ottenendo risultati all'avanguardia su benchmark di contesti lunghi e comprensione del dialogo.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

Il paper presenta Missing-by-Design (MBD), un quadro unificato per l'analisi del sentiment multimodale revocabile che combina apprendimento di rappresentazioni strutturate e un processo di modifica dei parametri certificabile per garantire la cancellazione selettiva dei dati e la conformità alla privacy senza richiedere un addestramento completo.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Il paper introduce AuditBench, un benchmark di 56 modelli linguistici con comportamenti nascosti, per valutare l'efficacia delle tecniche di audit di allineamento, rivelando un divario tra le prestazioni degli strumenti isolati e quelle degli agenti autonomi e identificando le metodologie di addestramento che rendono i modelli più difficili da analizzare.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Il paper introduce SkillCraft, un benchmark progettato per valutare la capacità degli agenti LLM di astrarre e riutilizzare composizioni di strumenti come "abilità" riutilizzabili, dimostrando che tale approccio riduce drasticamente l'uso dei token e migliora il successo nei compiti complessi.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

Il paper introduce PonderLM-3, un framework di preaddestramento che abilita un ponderamento adattivo a livello di token tramite mascheramento differenziabile, ottimizzando l'allocazione della computazione aggiuntiva solo dove necessaria per migliorare le prestazioni riducendo al contempo i costi di inferenza.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin2026-03-11💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Questo studio empirico mappizza le interazioni tra modelli linguistici e strategie di prompting nella generazione di codice Verilog, valutando l'impatto di diverse tecniche di ingegneria dei prompt e di ottimizzazione evolutiva su una vasta gamma di modelli di dimensioni e specializzazioni diverse.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh Karri2026-03-11💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Questo lavoro presenta una pipeline end-to-end ospitata localmente che converte le dispense in quiz a scelta multipla utilizzando un modello linguistico locale e controlli di qualità deterministici, garantendo privacy, trasparenza e sostenibilità ambientale senza dipendere da servizi API esterni.

Seine A. Shintani2026-03-11💻 cs

Fish Audio S2 Technical Report

Il documento presenta Fish Audio S2, un sistema open-source di sintesi vocale che supporta la generazione multi-parlante e multi-turno con controllo tramite istruzioni in linguaggio naturale, accompagnato da un motore di inferenza ottimizzato per lo streaming e risorse rilasciate pubblicamente.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Il paper presenta MASEval, un framework-agnostic che estende la valutazione dei sistemi multi-agente dall'analisi dei soli modelli a quella dell'intero sistema, dimostrando come le scelte implementative abbiano un impatto sulle prestazioni pari a quella della scelta del modello.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Lo studio dimostra che le feature apprese dagli Sparse Autoencoders nei modelli Gemma catturano significati astratti indipendentemente dalla scrittura, poiché le frasi serbe scritte in alfabeti latino e cirillico (che non condividono token) attivano rappresentazioni sovrapposte, suggerendo che la semantica prevale sulla forma ortografica.

Sripad Karne2026-03-11💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Il paper presenta MultiGraSCCo, un benchmark multilingue di anonimizzazione in dieci lingue creato tramite traduzione neurale per superare la scarsità di dati reali, fornendo oltre 2.500 annotazioni di informazioni personali validate da professionisti medici per lo sviluppo e la verifica di sistemi di protezione della privacy.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Questo studio valuta una strategia di screening senza etichette per elettrocatalizzatori a soluzione solida complessa, dimostrando che un baseline Word2Vec leggero, che utilizza combinazioni lineari di embedding elementari derivati da testi scientifici, spesso riduce efficacemente lo spazio dei candidati mantenendo prestazioni vicine a quelle ottimali misurate.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

Il paper presenta ConFu, un nuovo framework di decoding speculativo che migliora l'efficienza dell'inferenza dei LLM permettendo ai modelli bozza di anticipare la direzione futura della generazione tramite token contemplativi e prompt soft, ottenendo tassi di accettazione e velocità superiori rispetto a EAGLE-3.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun2026-03-11💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Il paper introduce SciTaRC, un benchmark creato da esperti per valutare la capacità dei modelli di intelligenza artificiale di rispondere a domande su dati tabellari scientifici che richiedono ragionamento linguistico e calcoli complessi, evidenziando come gli attuali modelli, inclusi quelli open-weight più avanzati, falliscano significativamente a causa di un "collo di bottiglia nell'esecuzione" che compromette sia la comprensione iniziale che l'accuratezza dei calcoli.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Il paper presenta PathoScribe, un framework unificato basato su modelli linguistici di grandi dimensioni (LLM) che trasforma gli archivi di patologia statici in una "biblioteca vivente" interattiva, abilitando il recupero semantico, il ragionamento clinico e la costruzione automatizzata di coorti di ricerca con elevata precisione ed efficienza.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Il paper presenta VoxEmo, un benchmark completo per la valutazione dei modelli linguistici vocali nell'ambito del riconoscimento delle emozioni, che affronta le sfide della generazione testuale aperta e dell'ambiguità emotiva attraverso un kit di strumenti standardizzato e protocolli di valutazione adattati alla percezione umana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas Hain2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Il paper introduce BiCLIP, un framework semplice ed efficiente che migliora l'adattamento ai domini specifici per i modelli visione-linguaggio applicando una trasformazione geometrica strutturata ai feature multimodali, ottenendo risultati all'avanguardia su 11 benchmark.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Il documento presenta "Guardian", un sistema end-to-end basato su un pipeline multi-LLM che, attraverso l'uso di modelli specializzati, un motore di consenso e il fine-tuning QLoRA, supporta le indagini su persone scomparse e la pianificazione delle ricerche con un approccio conservativo e verificabile.

Joshua Castillo, Ravi Mukkamala2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Questo studio presenta un framework automatizzato per l'analisi tematica dei dati qualitativi clinici che, combinando la raffinazione iterativa del codice con il tracciamento completo della provenienza, supera i metodi esistenti in termini di scalabilità, riproducibilità e allineamento con le annotazioni degli esperti.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Questo articolo propone un framework di auto-consistenza consapevole della fiducia che, analizzando un singolo percorso di ragionamento, seleziona adattivamente tra un singolo o più percorsi per ridurre i costi computazionali fino all'80% mantenendo un'accuratezza comparabile.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL

← Precedente Successivo →