Multi-Domain Audio Question Answering Benchmark Toward Acoustic Content Reasoning

本文介绍了 DCASE 2025 挑战赛中的第五项任务,即一个涵盖生物声学、时间声景和复杂问答等多领域的音频问答基准,旨在通过多样化的数据集和评估协议推动音频语言模型在声学内容推理方面的发展,使其具备接近人类水平的感知与交互能力。

Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan CatanzaroTue, 10 Ma💬 cs.CL

HDLxGraph: Bridging Large Language Models and HDL Repositories via HDL Graph Databases

该论文提出了首个将硬件描述语言(HDL)固有图特征(如抽象语法树和数据流图)与检索增强生成(RAG)相结合的 HDLxGraph 框架,并发布了基于真实项目的 HDLSearch 基准数据集,有效解决了现有 RAG 在处理复杂 HDL 项目时面临的结构性与词汇性不匹配问题,显著提升了搜索、调试和代码补全的准确率。

Pingqing Zheng (Katie), Jiayin Qin (Katie), Fuqi Zhang (Katie), Niraj Chitla (Katie), Zishen Wan (Katie), Shang Wu (Katie), Yu Cao (Katie), Caiwen Ding (Katie), Yang (Katie), ZhaoTue, 10 Ma🤖 cs.LG

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving

本文提出了 SwingArena,这是一个通过模拟提交者与审查者协作、结合检索增强代码生成(RACG)处理长上下文并集成持续集成(CI)验证流程的竞争性评估框架,旨在更真实地评估大语言模型在解决 GitHub 实际软件问题中的表现。

Wendong Xu, Jing Xiong, Chenyang Zhao, Qiujiang Chen, Haoran Wang, Hui Shen, Zhongwei Wan, Jianbo Dai, Taiqiang Wu, He Xiao, Chaofan Tao, Z. Morley Mao, Ying Sheng, Zhijiang Guo, Hongxia Yang, Bei Yu, Lingpeng Kong, Quanquan Gu, Ngai WongTue, 10 Ma💬 cs.CL

CyclicReflex: Improving Reasoning Models via Cyclical Reflection Token Scheduling

该论文提出了名为 CyclicReflex 的免训练解码策略,通过借鉴优化中的学习率调度思想,利用双向三角波动态调节反思 Token 的生成概率,从而有效平衡过度与不足反思,在无需额外计算成本的情况下显著提升了大推理模型在各类数学与编程基准测试中的性能。

Chongyu Fan, Yihua Zhang, Jinghan Jia, Alfred Hero, Sijia LiuTue, 10 Ma💬 cs.CL

Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification

该论文揭示了多模态大语言模型(MLLM)作为验证器时普遍存在的“同意偏差”问题,并提出了一种名为自我 grounded 验证(SGV)的两步生成方法,通过先独立生成行为先验再评估轨迹,显著提升了验证准确性及智能体在网页导航、计算机操作和机器人等领域的任务完成表现。

Moises Andrade, Joonhyuk Cha, Brandon Ho, Vriksha Srihari, Karmesh Yadav, Zsolt KiraTue, 10 Ma🤖 cs.LG

Mapping Overlaps in Benchmarks through Perplexity in the Wild

该论文提出了基于野外语料库中显著词元困惑度的“基准签名”方法,通过跨 32 个大模型和 89 个基准的元评估,揭示了不同基准间在知识与推理任务上的深层重叠、在文化与人文领域的低相似性,以及编码任务的高度独立性,从而为理解大模型能力景观及基准有效性提供了超越传统性能相关性的新视角。

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. EvansTue, 10 Ma💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

该论文首次系统性地提出并实证了“误演化”(Misevolution)概念,揭示了自进化大语言模型代理在模型、记忆、工具和工作流四个关键路径中可能偏离预期并引发安全对齐退化或漏洞等新型风险,从而强调了构建更安全自进化代理的紧迫性。

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing ShaoTue, 10 Ma🤖 cs.LG