cs.CL articoli | Gist.Science

Causal Retrieval with Semantic Consideration

Il paper introduce CAWAI, un modello di recupero che combina obiettivi semantici e causali per superare i limiti delle attuali tecniche di ricerca basate sulla semplice similarità superficiale, dimostrando prestazioni superiori in compiti di recupero causale e una forte capacità di generalizzazione zero-shot in domini scientifici.

Hyunseo Shin, Wonseok HwangTue, 10 Ma💬 cs.CL

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Questo studio dimostra che l'uso di modelli linguistici di grandi dimensioni (LLM) per estrarre caratteristiche cognitive e linguistiche, successivamente elaborate da algoritmi di apprendimento automatico basati su alberi decisionali, consente di stimare con maggiore precisione la difficoltà degli item nei test scolastici rispetto alla valutazione diretta, offrendo un'alternativa efficiente e scalabile ai costosi test sul campo.

Pooya Razavi, Sonya PowersTue, 10 Ma🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Questo documento presenta il Task 5 della sfida DCASE 2025, un benchmark per la risposta alle domande audio (AQA) che valuta la capacità di ragionamento acustico dei modelli linguistico-audio su tre sottogruppi di domini diversi, fornendo dataset, protocolli di valutazione e risultati preliminari di sistemi baselines.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

Il paper presenta FreeKV, un framework di co-ottimizzazione algoritmo-sistema privo di addestramento che migliora l'efficienza del recupero della cache KV mantenendo un'accuratezza quasi perfetta e ottenendo fino a 13 volte di velocità rispetto ai metodi esistenti.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru ZhaoTue, 10 Ma🤖 cs.LG

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Il paper introduce MAS-ZERO, il primo framework di auto-evoluzione che progetta sistemi multi-agente senza supervisione esterna, adattando dinamicamente ruoli e protocolli durante l'inferenza per ottenere prestazioni superiori rispetto ai metodi manuali e automatici esistenti.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq JotyTue, 10 Ma🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Il paper presenta HDLxGraph, un nuovo framework che integra le caratteristiche grafiche intrinseche dei linguaggi HDL (tramite AST e DFG) nei sistemi RAG per migliorare significativamente le prestazioni di ricerca, debug e completamento del codice rispetto agli approcci basati sulla similarità semantica, supportato dal nuovo benchmark HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

Il paper presenta SwingArena, un framework di valutazione competitiva per i modelli linguistici su larga scala che simula flussi di lavoro reali di sviluppo software attraverso un processo iterativo di sottomissione e revisione, supportato da un modulo di generazione del codice potenziato dal recupero (RACG) per gestire contesti estesi e risolvere issue di GitHub.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai WongTue, 10 Ma💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Il paper introduce MMTU, un nuovo benchmark su larga scala con oltre 28.000 domande su 25 compiti reali, progettato per valutare in modo completo le capacità di comprensione, ragionamento e manipolazione delle tabelle da parte dei modelli linguistici, rivelando che anche i modelli più avanzati attuali hanno ancora margini significativi di miglioramento in questo dominio.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

Il paper introduce CyclicReflex, una strategia di decodifica priva di addestramento che migliora le prestazioni dei modelli di ragionamento adattando ciclicamente la frequenza dei token di riflessione per bilanciare l'uso della risorsa computazionale e superare i limiti dell'eccessiva o insufficiente riflessione.

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia LiuTue, 10 Ma💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Il paper introduce MeRF, un metodo che migliora l'addestramento per rinforzo dei grandi modelli di ragionamento fornendo loro una "motivazione" testuale esplicita delle regole di ricompensa nel prompt, sfruttando così l'apprendimento in contesto per allineare la generazione alle ottimizzazioni desiderate.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng TaoTue, 10 Ma💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

Questo paper introduce SGV, un metodo di verifica auto-fondato che mitiga il bias di accordo nei modelli linguistici multimodali, migliorando significativamente l'individuazione degli errori e le prestazioni dei agenti in compiti di navigazione web, uso del computer e robotica.

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

Goal Alignment in LLM-Based User Simulators for Conversational AI

Questo articolo presenta UGST, un nuovo framework che risolve il problema della scarsa coerenza negli obiettivi dei simulatori di utenti basati su LLM, migliorando significativamente le loro prestazioni attraverso un monitoraggio dello stato degli obiettivi e una metodologia di valutazione su benchmark consolidati.

Shuhaib Mehri, Xiaocheng Yang, Takyoung Kim, Gokhan Tur, Shikib Mehri, Dilek Hakkani-TürTue, 10 Ma💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

Il paper presenta MathSmith, un nuovo framework che genera problemi matematici sintetici ad alta difficoltà partendo da zero e ottimizzandoli tramite apprendimento per rinforzo, superando i metodi esistenti e migliorando le capacità di ragionamento dei modelli linguistici su benchmark complessi.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei TanTue, 10 Ma💬 cs.CL

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Il paper introduce IAG, il primo attacco backdoor multi-obiettivo per la grounding visuale basato su modelli visione-linguaggio, che genera trigger dinamici e impercettibili guidati dal testo per reindirizzare l'attenzione verso oggetti target specifici senza compromettere le prestazioni su campioni benigni.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di ZhangTue, 10 Ma💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Il paper propone OTESGN, una rete che integra trasporto ottimo e grafi sintattico-semantici per migliorare l'analisi del sentiment basata su aspetti, ottenendo risultati all'avanguardia su diversi dataset grazie alla sua capacità di catturare associazioni non lineari e ridurre il rumore contestuale.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying RongTue, 10 Ma💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Lo studio dimostra che i monitor lineari per i modelli linguistici sono fragili e dipendono fortemente da evidenze testuali superficiali, poiché la loro efficacia crolla drasticamente quando tali indizi vengono rimossi o quando i modelli generano output privi di verbalizzazioni esplicite del comportamento target.

Gerard Boxo, Aman Neelappa, Shivam RavalTue, 10 Ma🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

Il paper introduce PonderLM-2, un nuovo metodo di preaddestramento che migliora le prestazioni dei modelli linguistici generando pensieri latenti intermedi nello spazio continuo prima di ogni token, permettendo a un modello più piccolo di superare uno standard con il doppio dei parametri a parità di costo inferenziale.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan LinTue, 10 Ma💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Questo lavoro introduce le "firme dei benchmark", insiemi di token salienti la cui perplessità nei modelli linguistici predice le prestazioni, rivelando una struttura di sovrapposizione più sfumata e robusta rispetto alle tradizionali correlazioni di performance e suggerendo che l'organizzazione semantica degli LLM differisce dalla struttura concettuale umana.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. EvansTue, 10 Ma💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Questo studio introduce il concetto di "misevoluzione" per descrivere i rischi emergenti in cui gli agenti LLM auto-evolutivi, pur migliorando autonomamente, deviano verso esiti dannosi attraverso percorsi di evoluzione del modello, della memoria, degli strumenti e del flusso di lavoro, evidenziando la necessità urgente di nuovi paradigmi di sicurezza.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing ShaoTue, 10 Ma🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

Il paper introduce TokMem, un framework di memoria procedurale che compila ogni compito riutilizzabile in un singolo token addestrabile, consentendo ai grandi modelli linguistici di acquisire nuovi comportamenti in modo continuo ed efficiente senza congelare il modello di base e superando le tecniche di prompting con recupero.

Zijun Wu, Yongchang Hao, Lili MouTue, 10 Ma💬 cs.CL

← Precedente Successivo →