cs.CL articoli | Gist.Science

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Questo lavoro presenta un framework vision-language leggero e spiegabile basato su Swin Transformer e T5, che utilizza una strategia di addestramento in due fasi per ottenere prestazioni quasi perfette nell'identificazione e nella spiegazione delle malattie delle colture attraverso il Visual Question Answering.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam AnsaryTue, 10 Ma💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

Il documento presenta NC-Bench, un nuovo benchmark teorico basato sul Framework di Conversazione Naturale dell'IBM che valuta la competenza conversazionale dei modelli linguistici su tre livelli (di base, con RAG e complesso) concentrandosi sulla struttura e sul flusso dell'interazione piuttosto che sui contenuti specifici.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj GalaTue, 10 Ma💬 cs.CL

A Component-Based Survey of Interactions between Large Language Models and Multi-Armed Bandits

Questo lavoro è il primo sondaggio che esamina sistematicamente le interazioni bidirezionali tra i grandi modelli linguistici e gli algoritmi di multi-armed bandit a livello di componente, evidenziando come questi due campi si rafforzino reciprocamente per migliorare sia il processo decisionale adattivo che le capacità dei modelli linguistici.

Siguang Chen, Chunli Lv, Miao XieTue, 10 Ma🤖 cs.LG

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

Il paper presenta MAS-Orchestra, un framework di addestramento che ottimizza l'orchestrazione multi-agente tramite apprendimento per rinforzo e astrazione a funzioni, accompagnato da MASBENCH, un benchmark controllato che dimostra come i vantaggi dei sistemi multi-agente dipendano dalla struttura del compito e non siano universali, ottenendo al contempo miglioramenti significativi su diverse attività di ragionamento con un'efficienza superiore di 10 volte rispetto alle basi di riferimento.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq JotyTue, 10 Ma💬 cs.CL

Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents

Il paper introduce il Determinism-Faithfulness Assurance Harness (DFAH), un framework open-source per valutare l'indipendenza tra determinismo e accuratezza negli agenti LLM finanziari, dimostrando che nessun modello attuale garantisce simultaneamente entrambe le proprietà e fornendo benchmark specifici per soddisfare i requisiti di audit regolamentare.

Raffi KhatchadourianTue, 10 Ma💬 cs.CL

EFT-CoT: A Multi-Agent Chain-of-Thought Framework for Emotion-Focused Therapy

Il paper presenta EFT-CoT, un framework multi-agente basato sulla Terapia Focalizzata sulle Emozioni (EFT) che, attraverso un dataset addestrativo su 67.000 testi reali e un modello specializzato, supera le limitazioni degli approcci cognitivi tradizionali offrendo risposte di supporto alla salute mentale con maggiore profondità empatica e professionalità strutturale.

Lanqing Du, Yunong Li, YuJie Long, Shihong ChenTue, 10 Ma💬 cs.CL

Improving X-Codec-2.0 for Multi-Lingual Speech: 25 Hz Latent Rate and 24 kHz Sampling

Questo lavoro presenta una versione ottimizzata di X-Codec-2.0 che, riducendo il tasso latente a 25 Hz e aumentando la frequenza di campionamento a 24 kHz tramite modifiche semplici alla struttura, migliora l'efficienza e la qualità percettiva della sintesi vocale multilingue rispetto alla configurazione originale.

Husein ZolkepliTue, 10 Ma💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

Il paper presenta RedSage, un assistente LLM open-source specializzato in cybersecurity addestrato su un vasto corpus di dati specifici e tecniche di augmentation agentiche, che supera le prestazioni dei modelli di base sia in compiti di sicurezza informatica che in ragionamento generale, offrendo al contempo una soluzione localmente deployabile che preserva la privacy dei dati.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto DamianiTue, 10 Ma💬 cs.CL

Mem-T: Densifying Rewards for Long-Horizon Memory Agents

Mem-T è un agente di memoria autonomo che, grazie al framework di apprendimento per rinforzo MoT-GRPO, risolve il problema della ricompensa sparsa in compiti a lungo termine densificando il feedback e ottimizzando congiuntamente la costruzione e il recupero della memoria, ottenendo prestazioni superiori e un'efficienza computazionale migliorata rispetto agli approcci esistenti.

Yanwei Yue, Boci Peng, Xuanbo Fan, Jiaxin Guo, Qiankun Li, Yan ZhangTue, 10 Ma🤖 cs.LG

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Lo studio dimostra che, per il rilevamento dei valori umani a livello di frase, la struttura gerarchica dei valori di Schwartz funge più efficacemente da bias induttivo che da regola di routing rigida, mentre le migliori prestazioni si ottengono attraverso tecniche di calibrazione e ensemble piuttosto che con architetture complesse o modelli LLM compatti.

Víctor Yeste, Paolo RossoTue, 10 Ma🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

Il paper presenta LatentMem, un framework di memoria multi-agente apprendibile che risolve i problemi di omogeneizzazione e sovraccarico informativo attraverso la sintesi di memorie latenti compatte e specifiche per ruolo, ottimizzate tramite una nuova strategia di apprendimento chiamata LMPO.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang YangTue, 10 Ma🤖 cs.LG

Measuring Complexity at the Requirements Stage: Spectral Metrics as Development Effort Predictors

Questo studio dimostra che le metriche spettrali estratte da reti strutturali di requisiti testuali, validate attraverso un esperimento con integrazioni molecolari, prevedono con elevata accuratezza lo sforzo di integrazione, colmando un divario metodologico tra l'analisi della complessità architetturale e l'ingegneria dei requisiti.

Maximilian Vierlboeck, Antonio Pugliese, Roshanak Nilchian, Paul Grogan, Rashika Sugganahalli Natesh BabuTue, 10 Ma💬 cs.CL

Listen to the Layers: Mitigating Hallucinations with Inter-Layer Disagreement

Il paper presenta CoCoA, un nuovo algoritmo di decoding senza addestramento che mitiga le allucinazioni nei modelli linguistici di grandi dimensioni analizzando l'instabilità rappresentativa tra i livelli interni per migliorare l'accuratezza fattuale durante l'inferenza.

Koduvayur Subbalakshmi, Sabbir Hossain Ujjal, Venkata Krishna Teja Mangichetty, Nastaran Jamalipour SoofiTue, 10 Ma💬 cs.CL

Neuro-Symbolic Synergy for Interactive World Modeling

Il paper presenta NeSyS, un framework neuro-simbolico che integra le capacità semantiche probabilistiche dei grandi modelli linguistici con regole simboliche eseguibili per creare modelli del mondo interattivi più robusti, precisi ed efficienti dal punto di vista dei dati, riducendo la necessità di dati di addestramento del 50% senza compromettere l'accuratezza.

Hongyu Zhao, Siyu Zhou, Haolin Yang, Zengyi Qin, Tianyi ZhouTue, 10 Ma💬 cs.CL

Learning Page Order in Shuffled WOO Releases

Questo studio analizza il riordinamento di documenti OAI olandesi frammentati, dimostrando che mentre i modelli basati su reti pointer e ranking pairwise raggiungono buone prestazioni su documenti brevi, i transformer seq2seq falliscono su testi lunghi a causa di strategie di ordinamento divergenti, un problema mitigato con successo attraverso la specializzazione del modello.

Efe Kahraman, Giulio TosatoTue, 10 Ma🤖 cs.LG

Discovering Semantic Latent Structures in Psychological Scales: A Response-Free Pathway to Efficient Simplification

Questo articolo presenta un framework di modellazione tematica che utilizza le incorporazioni semantiche contestuali per semplificare le scale psicologiche senza richiedere dati di risposta, riducendo la lunghezza degli strumenti del 60,5% in media pur mantenendo la validità psicometrica e la coerenza strutturale.

Bo Wang, Yuxuan Zhang, Yueqin Hu, Hanchao Hou, Kaiping Peng, Shiguang NiTue, 10 Ma🤖 cs.LG

A Geometric Taxonomy of Hallucinations in LLMs

Questo lavoro propone una tassonomia geometrica delle allucinazioni nei LLM, classificandole in tre tipi distinti e introducendo gli indici SGI e DGI per rilevarle, mentre evidenzia come le limitazioni metodologiche nei benchmark esistenti possano mascherare la vera natura degli errori fattuali.

Javier MarínTue, 10 Ma💬 cs.CL

Why Code, Why Now: Learnability, Computability, and the Real Limits of Machine Learning

Questo articolo propone una gerarchia a cinque livelli di apprendibilità basata sulla struttura informativa dei problemi computazionali, sostenendo che il progresso dell'apprendimento automatico dipende più dalla verificabilità del feedback (come nel caso della generazione di codice) rispetto alla semplice scalabilità dei modelli.

Zhimin ZhaoTue, 10 Ma🤖 cs.LG

Explainable Token-level Noise Filtering for LLM Fine-tuning Datasets

Il paper propone XTF, un framework di filtraggio del rumore a livello di token che migliora significativamente le prestazioni del fine-tuning dei LLM decomponendo i contributi dei dati in attributi espliciti e mascherando i gradienti dei token rumorosi.

Yuchen Yang, Wenze Lin, Enhao Huang, Zhixuan Chu, Hongbin Zhou, Lan Tao, Yiming Li, Zhan Qin, Kui RenTue, 10 Ma💬 cs.CL

Understand Then Memory: A Cognitive Gist-Driven RAG Framework with Global Semantic Diffusion

Il paper presenta CogitoRAG, un framework RAG ispirato alla memoria episodica umana che, attraverso l'estrazione di "gist" semantici, la costruzione di un grafo della conoscenza multidimensionale e un meccanismo di diffusione semantica globale, supera i limiti delle rappresentazioni testuali discrete per migliorare significativamente l'integrazione della conoscenza e il ragionamento rispetto ai metodi RAG esistenti.

Pengcheng Zhou, Haochen Li, Zhiqiang Nie, JiaLe Chen, Qing Gong, Weizhen Zhang, Chun YuTue, 10 Ma💬 cs.CL

← Precedente Successivo →