Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Questo studio dimostra che l'uso di modelli linguistici di grandi dimensioni (LLM) per estrarre caratteristiche cognitive e linguistiche, successivamente elaborate da algoritmi di apprendimento automatico basati su alberi decisionali, consente di stimare con maggiore precisione la difficoltà degli item nei test scolastici rispetto alla valutazione diretta, offrendo un'alternativa efficiente e scalabile ai costosi test sul campo.

Pooya Razavi, Sonya PowersTue, 10 Ma🤖 cs.LG

Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Questo documento presenta il Task 5 della sfida DCASE 2025, un benchmark per la risposta alle domande audio (AQA) che valuta la capacità di ragionamento acustico dei modelli linguistico-audio su tre sottogruppi di domini diversi, fornendo dataset, protocolli di valutazione e risultati preliminari di sistemi baselines.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Il paper presenta HDLxGraph, un nuovo framework che integra le caratteristiche grafiche intrinseche dei linguaggi HDL (tramite AST e DFG) nei sistemi RAG per migliorare significativamente le prestazioni di ricerca, debug e completamento del codice rispetto agli approcci basati sulla similarità semantica, supportato dal nuovo benchmark HDLSearch.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

Il paper presenta SwingArena, un framework di valutazione competitiva per i modelli linguistici su larga scala che simula flussi di lavoro reali di sviluppo software attraverso un processo iterativo di sottomissione e revisione, supportato da un modulo di generazione del codice potenziato dal recupero (RACG) per gestire contesti estesi e risolvere issue di GitHub.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai WongTue, 10 Ma💬 cs.CL

MMTU: A Massive Multi-Task Table Understanding and Reasoning Benchmark

Il paper introduce MMTU, un nuovo benchmark su larga scala con oltre 28.000 domande su 25 compiti reali, progettato per valutare in modo completo le capacità di comprensione, ragionamento e manipolazione delle tabelle da parte dei modelli linguistici, rivelando che anche i modelli più avanzati attuali hanno ancora margini significativi di miglioramento in questo dominio.

Junjie Xing, Yeye He, Mengyu Zhou, Haoyu Dong, Shi Han, Lingjiao Chen, Dongmei Zhang, Surajit Chaudhuri, H. V. JagadishTue, 10 Ma🤖 cs.LG

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Il paper introduce MeRF, un metodo che migliora l'addestramento per rinforzo dei grandi modelli di ragionamento fornendo loro una "motivazione" testuale esplicita delle regole di ricompensa nel prompt, sfruttando così l'apprendimento in contesto per allineare la generazione alle ottimizzazioni desiderate.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng TaoTue, 10 Ma💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Il paper propone OTESGN, una rete che integra trasporto ottimo e grafi sintattico-semantici per migliorare l'analisi del sentiment basata su aspetti, ottenendo risultati all'avanguardia su diversi dataset grazie alla sua capacità di catturare associazioni non lineari e ridurre il rumore contestuale.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying RongTue, 10 Ma💬 cs.CL

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

Il paper introduce PonderLM-2, un nuovo metodo di preaddestramento che migliora le prestazioni dei modelli linguistici generando pensieri latenti intermedi nello spazio continuo prima di ogni token, permettendo a un modello più piccolo di superare uno standard con il doppio dei parametri a parità di costo inferenziale.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan LinTue, 10 Ma💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Questo lavoro introduce le "firme dei benchmark", insiemi di token salienti la cui perplessità nei modelli linguistici predice le prestazioni, rivelando una struttura di sovrapposizione più sfumata e robusta rispetto alle tradizionali correlazioni di performance e suggerendo che l'organizzazione semantica degli LLM differisce dalla struttura concettuale umana.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. EvansTue, 10 Ma💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Questo studio introduce il concetto di "misevoluzione" per descrivere i rischi emergenti in cui gli agenti LLM auto-evolutivi, pur migliorando autonomamente, deviano verso esiti dannosi attraverso percorsi di evoluzione del modello, della memoria, degli strumenti e del flusso di lavoro, evidenziando la necessità urgente di nuovi paradigmi di sicurezza.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing ShaoTue, 10 Ma🤖 cs.LG