cs.CL articoli | Gist.Science

DuplexCascade: Full-Duplex Speech-to-Speech Dialogue with VAD-Free Cascaded ASR-LLM-TTS Pipeline and Micro-Turn Optimization

Il paper presenta DuplexCascade, un sistema di dialogo vocale full-duplex a cascata che, eliminando la necessità del rilevamento della voce (VAD) e introducendo micro-turni e token di controllo speciali, combina l'intelligenza dei modelli linguistici su larga scala con interazioni bidirezionali rapide e fluide.

Jianing Yang, Yusuke Fujita, Yui SudoWed, 11 Ma🤖 cs.AI

DEO: Training-Free Direct Embedding Optimization for Negation-Aware Retrieval

Il paper presenta DEO, un metodo privo di addestramento che ottimizza direttamente gli embedding per migliorare l'accuratezza del recupero di informazioni contenenti negazioni ed esclusioni sia nel testo che nel multimodale, superando le prestazioni delle soluzioni esistenti senza richiedere costi computazionali aggiuntivi.

Taegyeong Lee, Jiwon Park, Seunghyun Hwang, JooYoung JangWed, 11 Ma💬 cs.CL

The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Questo paper sostiene che il miglioramento delle capacità di ragionamento logico nei modelli linguistici di grandi dimensioni, attraverso il framework RAISE, funge da meccanismo diretto per l'acquisizione della consapevolezza situazionale e il potenziale inganno strategico, rendendo necessarie nuove misure di sicurezza come il "Test dello Specchio" e il Principio di Parità di Sicurezza nel Ragionamento.

Subramanyam Sahoo, Aman Chadha, Vinija Jain, Divya ChaudharyWed, 11 Ma🤖 cs.AI

Emotion is Not Just a Label: Latent Emotional Factors in LLM Processing

Questo studio dimostra che le emozioni agiscono come fattori latenti che modellano l'attenzione e il ragionamento nei modelli linguistici, introducendo il dataset AURA-QA e un framework di regolarizzazione emotiva che migliorano le prestazioni di comprensione del testo sia in contesti emotivi che neutri.

Benjamin Reichman, Adar Avasian, Samuel Webster, Larry HeckWed, 11 Ma🤖 cs.AI

SPAR-K: Scheduled Periodic Alternating Early Exit for Spoken Language Models

Il paper propone SPAR-K, un framework di uscita anticipata modale-aware che accelera l'inferenza dei modelli linguistici parlati intercalati riducendo la profondità di decodifica fino all'11% con un impatto trascurabile sulla qualità percettiva e sull'accuratezza, superando le strategie di uscita anticipata basate sulla confidenza tipiche dei LLM testuali.

Hsiao-Ying Huang, Cheng-Han Chiang, Hung-yi LeeWed, 11 Ma💬 cs.CL

LooComp: Leverage Leave-One-Out Strategy to Encoder-only Transformer for Efficient Query-aware Context Compression

Il paper presenta LooComp, un framework basato su un Transformer solo-encoder che utilizza una strategia di leave-one-out e una funzione di perdita marginale per comprimere in modo efficiente il contesto nelle domande, garantendo alte prestazioni di risposta con minori costi computazionali e memoria rispetto alle soluzioni esistenti.

Thao Do, Dinh Phu Tran, An Vo, Seon Kwon Kim, Daeyoung KimWed, 11 Ma💬 cs.CL

How Contrastive Decoding Enhances Large Audio Language Models?

Questo studio valuta sistematicamente diverse strategie di Decodifica Contrastiva per i Modelli Linguistici Audio di grandi dimensioni, identificando le più efficaci e introducendo una matrice di transizione per spiegare come tali metodi correggano specifici errori di inferenza, fornendo così linee guida per l'adattamento in base ai profili di errore dei modelli.

Tzu-Quan Lin, Wei-Ping Huang, Yi-Cheng Lin, Hung-yi LeeWed, 11 Ma💬 cs.CL

Diagnosing and Repairing Citation Failures in Generative Engine Optimization

Questo articolo introduce AgentGEO, un sistema agenziale che diagnostica e risolve le cause specifiche del mancato citamento dei documenti nell'ottimizzazione per motori generativi (GEO), ottenendo un miglioramento superiore del 40% nei tassi di citazione rispetto ai metodi basati su regole generiche.

Zhihua Tian, Yuhan Chen, Yao Tang, Jian Liu, Ruoxi JiaWed, 11 Ma💬 cs.CL

TA-Mem: Tool-Augmented Autonomous Memory Retrieval for LLM in Long-Term Conversational QA

Il paper presenta TA-Mem, un nuovo framework di recupero autonomo della memoria potenziato da strumenti per i Large Language Models, che supera le limitazioni delle finestre contestuali e dei metodi di recupero statici attraverso un agente di estrazione adattivo, un database indicizzato multipli e un agente di recupero autonomo, ottenendo risultati significativamente migliori sul dataset LoCoMo.

Mengwei Yuan, Jianan Liu, Jing Yang, Xianyou Li, Weiran Yan, Yichao Wu, Penghao LiangWed, 11 Ma💬 cs.CL

TaSR-RAG: Taxonomy-guided Structured Reasoning for Retrieval-Augmented Generation

Il paper presenta TaSR-RAG, un framework di ragionamento strutturato guidato da una tassonomia che, trasformando query e documenti in triple relazionali e decomponendo le domande complesse in sottoproblemi sequenziali, supera i limiti dei sistemi RAG tradizionali migliorando significativamente l'accuratezza e la tracciabilità del ragionamento multi-hop senza la necessità di costose costruzioni di grafi.

Jiashuo Sun, Yixuan Xie, Jimeng Shi, Shaowen Wang, Jiawei HanWed, 11 Ma🤖 cs.AI

Quantifying and extending the coverage of spatial categorization data sets

Questo studio dimostra che le etichette generate dai grandi modelli linguistici (LLM) si allineano bene con quelle umane per la categorizzazione spaziale, permettendo di espandere la serie TRPS con nuove scene che offrono una copertura più ampia rispetto a estensioni precedenti e gettando le basi per dataset multilingue scalabili.

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles KempWed, 11 Ma💬 cs.CL

Reward Prediction with Factorized World States

Il paper introduce StateFactory, un metodo che trasforma le osservazioni non strutturate in rappresentazioni di stato fattorizzate gerarchiche per prevedere i reward tramite similarità semantica, ottenendo una generalizzazione zero-shot superiore e migliorando significativamente le prestazioni di pianificazione degli agenti su diversi domini.

Yijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale FungWed, 11 Ma💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

Il paper propone "LLM as a Meta-Judge", un framework scalabile che utilizza i Large Language Model per generare dati di valutazione sintetici tramite degradazione semantica controllata, dimostrando che questo approccio può sostituire le costose annotazioni umane con un'alta affidabilità nella validazione delle metriche NLP multilingue.

Lukáš Eigler, Jindřich Libovický, David HurychWed, 11 Ma💬 cs.CL

Investigating Gender Stereotypes in Large Language Models via Social Determinants of Health

Questo studio esamina come i modelli linguistici di grandi dimensioni (LLM) perpetuino stereotipi di genere nel contesto dei determinanti sociali della salute, dimostrando che l'analisi delle interazioni tra questi fattori, specialmente nei dati sanitari francesi, è fondamentale per una valutazione più completa dei pregiudizi nei modelli.

Trung Hieu Ngo, Adrien Bazoge, Solen Quiniou, Pierre-Antoine Gourraud, Emmanuel MorinWed, 11 Ma🤖 cs.AI

Common Sense vs. Morality: The Curious Case of Narrative Focus Bias in LLMs

Questo studio introduce il benchmark CoMoral per evidenziare come i grandi modelli linguistici tendano a privilegiare il ragionamento morale rispetto alla comprensione del senso comune, mostrando inoltre un pregiudizio narrativo che li porta a rilevare più facilmente contraddizioni attribuite a personaggi secondari rispetto al narratore.

Saugata Purkayastha, Pranav Kushare, Pragya Paramita Pal, Sukannya PurkayasthaWed, 11 Ma🤖 cs.AI

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

Il paper introduce CyberThreat-Eval, un benchmark basato su flussi di lavoro reali e annotato da esperti per valutare le capacità dei modelli linguistici nell'automazione della ricerca sulle minacce informatiche, evidenziando le loro attuali limitazioni e proponendo un approccio iterativo con feedback umano.

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan TangWed, 11 Ma💬 cs.CL

Modelling the Diachronic Emergence of Phoneme Frequency Distributions

Questo studio dimostra che le regolarità statistiche nella distribuzione delle frequenze dei fonemi e la relazione negativa tra dimensione dell'inventario e entropia relativa possono emergere naturalmente dai processi diacronici di cambiamento fonologico, senza necessità di meccanismi di ottimizzazione espliciti.

Fermín Moscoso del Prado Martín, Suchir SalhanWed, 11 Ma💬 cs.CL

You Didn't Have to Say It like That: Subliminal Learning from Faithful Paraphrases

Il documento dimostra che i modelli linguistici possono acquisire subliminalmente le preferenze di un modello "insegnante" (come l'amore per un animale specifico) semplicemente addestrandosi su parafrasi fedeli del suo output, anche quando il contenuto semantico è irrilevante o contraddice esplicitamente tale preferenza, rivelando un rischio critico di trasmissione di bias nei pipeline di generazione dati che non possono essere rilevati tramite ispezione del contenuto.

Isaia Gisler (ETH Zürich), Zhonghao He (University of Cambridge), Tianyi Qiu (Peking University)Wed, 11 Ma🤖 cs.LG

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

Questo studio propone un metodo innovativo che utilizza i Large Language Models per generare messaggi di debunking delle fake news personalizzati in base ai tratti della personalità, dimostrando che tali messaggi sono generalmente più persuasivi di quelli generici e sollevando al contempo importanti questioni etiche.

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. PassaroWed, 11 Ma🤖 cs.AI

ALARM: Audio-Language Alignment for Reasoning Models

Il paper introduce ALARM, un modello audio-linguistico da 4 miliardi di parametri che risolve il problema dell'allineamento per i modelli di ragionamento tramite una tecnica di "self-rephrasing" e la fusione di encoder audio, ottenendo risultati leader tra i modelli open-source su benchmark di ragionamento audio mantenendo al contempo elevate capacità testuali.

Petr Grinberg, Hassan ShahmohammadiWed, 11 Ma💬 cs.CL

← Precedente Successivo →