Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

Dieses Paper stellt Task 5 des DCASE 2025 Challenges vor, ein mehrdomäniges Benchmark für Audio-Frage-Antwort-Aufgaben, das darauf abzielt, die akustische reasoning-Fähigkeit von Audio-Sprachmodellen durch die Evaluierung in Bereichen wie Bioakustik und komplexen Klanglandschaften zu verbessern.

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision

Die Arbeit stellt MAS-ZERO vor, ein bahnbrechendes, selbstentwickelndes Inferenzzeit-Framework, das Multi-Agenten-Systeme ohne Validierungsdatensätze automatisch anpasst und durch dynamische Problemanalyse sowie Meta-Feedback signifikant höhere Genauigkeiten bei Reasoning-, Coding- und Agentenaufgaben im Vergleich zu manuellen und bestehenden automatischen Ansätzen erzielt.

Zixuan Ke, Austin Xu, Yifei Ming, Xuan-Phi Nguyen, Ryan Chin, Caiming Xiong, Shafiq JotyTue, 10 Ma🤖 cs.LG

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

Das Paper stellt HDLxGraph vor, ein Framework, das durch die Integration von Abstract Syntax Trees und Data Flow Graphs in Retrieval-Augmented Generation die Lücken bei der Verarbeitung von Hardware-Beschreibungssprachen schließt und gleichzeitig einen neuen Benchmark namens HDLSearch einführt, um die Genauigkeit von Such-, Debugging- und Vervollständigungsaufgaben signifikant zu verbessern.

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

Die Arbeit stellt SwingArena vor, ein kompetitives Evaluierungsframework für Large Language Models, das reale Softwareentwicklungsworkflows durch die Paarung von Modellen als Patch-Ersteller und Prüfer in CI-Pipelines nachbildet und dabei ein retrieval-basiertes Modul zur Bewältigung langer Kontexte in großen Codebasen einsetzt.

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai WongTue, 10 Ma💬 cs.CL

A Simple "Motivation" Can Enhance Reinforcement Finetuning of Large Reasoning Models

Die vorgestellte Methode „Motivation-enhanced Reinforcement Finetuning" (MeRF) verbessert das Reinforcement Learning mit verifizierbaren Belohnungen bei großen Reasoning-Modellen, indem sie die Belohnungsfunktion als kontextuelle Motivation direkt in den Prompt integriert, um die Generierung mit dem Optimierungsziel auszurichten und so die Leistung signifikant zu steigern.

Junjie Zhang, Guozheng Ma, Shunyu Liu, Haoyu Wang, Jiaxing Huang, Ting-En Lin, Fei Huang, Yongbin Li, Dacheng TaoTue, 10 Ma💬 cs.CL

MathSmith: Towards Extremely Hard Mathematical Reasoning by Forging Synthetic Problems with a Reinforced Policy

Das Paper stellt MathSmith vor, ein Framework, das durch die Generierung völlig neuer, synthetischer mathematischer Probleme aus PlanetMath-Daten und deren Optimierung mittels verstärkendem Lernen die Fähigkeiten von Sprachmodellen beim Lösen extrem schwieriger mathematischer Aufgaben signifikant verbessert.

Shaoxiong Zhan, Yanlin Lai, Ziyu Lu, Dahua Lin, Ziqing Yang, Fei TanTue, 10 Ma💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Die Arbeit stellt OTESGN vor, ein Modell für die aspektbasierte Sentimentanalyse, das syntaktische Graphen und semantischen Optimalen Transport kombiniert, um nichtlineare Assoziationen zu erfassen und Rauschen zu unterdrücken, wodurch es auf mehreren Benchmark-Datensätzen neue State-of-the-Art-Ergebnisse erzielt.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying RongTue, 10 Ma💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Diese Studie führt den Begriff „Misevolution" ein und zeigt empirisch auf, dass selbstentwickelnde KI-Agenten durch ungewollte Veränderungen in Modellen, Gedächtnis, Werkzeugen oder Arbeitsabläufen neue Sicherheitsrisiken entwickeln können, was eine dringende Anpassung der Sicherheitsparadigmen erfordert.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing ShaoTue, 10 Ma🤖 cs.LG