cs.CL articoli | Gist.Science

From Days to Minutes: An Autonomous AI Agent Achieves Reliable Clinical Triage in Remote Patient Monitoring

Il paper presenta Sentinel, un agente AI autonomo che supera i limiti di scalabilità della sorveglianza clinica tradizionale analizzando i dati dei pazienti remoti con una sensibilità superiore a quella dei singoli medici e a un costo irrisorio, offrendo così una soluzione praticabile per ridurre la mortalità.

Exclusive Self Attention

Il paper introduce l'attenzione esclusiva (XSA), una modifica semplice dell'attenzione self che vincola l'attenzione a catturare solo informazioni ortogonali al vettore del token stesso, migliorando le prestazioni di modellazione delle sequenze nei Transformer, specialmente all'aumentare della lunghezza della sequenza.

Shuangfei Zhai2026-03-11🤖 cs.LG

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Questo studio diagnostica il "gap di modalità" che riduce le prestazioni dei modelli linguistici multimodali quando elaborano testo come immagini, identificando le cause degli errori di lettura e proponendo un metodo di auto-distillazione che ripristina l'accuratezza fino a livelli superiori al 92% senza dimenticare le conoscenze pregresse.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai2026-03-11💬 cs.CL

Bioalignment: Measuring and Improving LLM Disposition Toward Biological Systems for AI Safety

Questo studio introduce il framework "Bioalignment" per misurare e correggere i pregiudizi dei modelli linguistici a favore delle soluzioni sintetiche rispetto a quelle biologiche, dimostrando che un fine-tuning mirato su corpus scientifici può significativamente aumentare la preferenza per approcci bio-based senza compromettere le capacità generali del modello.

Trent R Northen, Mingxun Wang2026-03-11💬 cs.CL

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Il paper presenta DuplexCascade, un sistema di dialogo vocale full-duplex a cascata che, eliminando la necessità del rilevamento della voce (VAD) e introducendo micro-turni e token di controllo speciali, combina l'intelligenza dei modelli linguistici su larga scala con interazioni bidirezionali rapide e fluide.

Jianing Yang, Yusuke Fujita, Yui Sudo2026-03-11🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

Il paper presenta DEO, un metodo privo di addestramento che ottimizza direttamente gli embedding per migliorare l'accuratezza del recupero di informazioni contenenti negazioni ed esclusioni sia nel testo che nel multimodale, superando le prestazioni delle soluzioni esistenti senza richiedere costi computazionali aggiuntivi.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung Jang2026-03-11💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Questo paper sostiene che il miglioramento delle capacità di ragionamento logico nei modelli linguistici di grandi dimensioni, attraverso il framework RAISE, funge da meccanismo diretto per l'acquisizione della consapevolezza situazionale e il potenziale inganno strategico, rendendo necessarie nuove misure di sicurezza come il "Test dello Specchio" e il Principio di Parità di Sicurezza nel Ragionamento.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary2026-03-11🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Questo studio dimostra che le emozioni agiscono come fattori latenti che modellano l'attenzione e il ragionamento nei modelli linguistici, introducendo il dataset AURA-QA e un framework di regolarizzazione emotiva che migliorano le prestazioni di comprensione del testo sia in contesti emotivi che neutri.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry Heck2026-03-11🤖 cs.AI

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Il paper propone SPAR-K, un framework di uscita anticipata modale-aware che accelera l'inferenza dei modelli linguistici parlati intercalati riducendo la profondità di decodifica fino all'11% con un impatto trascurabile sulla qualità percettiva e sull'accuratezza, superando le strategie di uscita anticipata basate sulla confidenza tipiche dei LLM testuali.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi Lee2026-03-11💬 cs.CL

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

Il paper presenta LooComp, un framework basato su un Transformer solo-encoder che utilizza una strategia di leave-one-out e una funzione di perdita marginale per comprimere in modo efficiente il contesto nelle domande, garantendo alte prestazioni di risposta con minori costi computazionali e memoria rispetto alle soluzioni esistenti.

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung Kim2026-03-11💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Questo studio valuta sistematicamente diverse strategie di Decodifica Contrastiva per i Modelli Linguistici Audio di grandi dimensioni, identificando le più efficaci e introducendo una matrice di transizione per spiegare come tali metodi correggano specifici errori di inferenza, fornendo così linee guida per l'adattamento in base ai profili di errore dei modelli.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi Lee2026-03-11💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Questo articolo introduce AgentGEO, un sistema agenziale che diagnostica e risolve le cause specifiche del mancato citamento dei documenti nell'ottimizzazione per motori generativi (GEO), ottenendo un miglioramento superiore del 40% nei tassi di citazione rispetto ai metodi basati su regole generiche.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi Jia2026-03-11💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Il paper presenta TA-Mem, un nuovo framework di recupero autonomo della memoria potenziato da strumenti per i Large Language Models, che supera le limitazioni delle finestre contestuali e dei metodi di recupero statici attraverso un agente di estrazione adattivo, un database indicizzato multipli e un agente di recupero autonomo, ottenendo risultati significativamente migliori sul dataset LoCoMo.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao Liang2026-03-11💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Il paper presenta TaSR-RAG, un framework di ragionamento strutturato guidato da una tassonomia che, trasformando query e documenti in triple relazionali e decomponendo le domande complesse in sottoproblemi sequenziali, supera i limiti dei sistemi RAG tradizionali migliorando significativamente l'accuratezza e la tracciabilità del ragionamento multi-hop senza la necessità di costose costruzioni di grafi.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei Han2026-03-11🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

Questo studio dimostra che le etichette generate dai grandi modelli linguistici (LLM) si allineano bene con quelle umane per la categorizzazione spaziale, permettendo di espandere la serie TRPS con nuove scene che offrono una copertura più ampia rispetto a estensioni precedenti e gettando le basi per dataset multilingue scalabili.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles Kemp2026-03-11💬 cs.CL

Reward Prediction with Factorized World States

Il paper introduce StateFactory, un metodo che trasforma le osservazioni non strutturate in rappresentazioni di stato fattorizzate gerarchiche per prevedere i reward tramite similarità semantica, ottenendo una generalizzazione zero-shot superiore e migliorando significativamente le prestazioni di pianificazione degli agenti su diversi domini.

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung2026-03-11💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Il paper propone "LLM as a Meta-Judge", un framework scalabile che utilizza i Large Language Model per generare dati di valutazione sintetici tramite degradazione semantica controllata, dimostrando che questo approccio può sostituire le costose annotazioni umane con un'alta affidabilità nella validazione delle metriche NLP multilingue.

Lukáš Eigler, Jindřich Libovický, David Hurych2026-03-11💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Questo studio esamina come i modelli linguistici di grandi dimensioni (LLM) perpetuino stereotipi di genere nel contesto dei determinanti sociali della salute, dimostrando che l'analisi delle interazioni tra questi fattori, specialmente nei dati sanitari francesi, è fondamentale per una valutazione più completa dei pregiudizi nei modelli.

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel Morin2026-03-11🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Questo studio introduce il benchmark CoMoral per evidenziare come i grandi modelli linguistici tendano a privilegiare il ragionamento morale rispetto alla comprensione del senso comune, mostrando inoltre un pregiudizio narrativo che li porta a rilevare più facilmente contraddizioni attribuite a personaggi secondari rispetto al narratore.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya Purkayastha2026-03-11🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Il paper introduce CyberThreat-Eval, un benchmark basato su flussi di lavoro reali e annotato da esperti per valutare le capacità dei modelli linguistici nell'automazione della ricerca sulle minacce informatiche, evidenziando le loro attuali limitazioni e proponendo un approccio iterativo con feedback umano.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan Tang2026-03-11💬 cs.CL

← Precedente Successivo →