Quantifying and extending the coverage of spatial categorization data sets

该论文展示了大语言模型生成的标签与人类标注在空间范畴化任务中高度一致,并据此提出了一种扩展“拓扑关系图片系列”(TRPS)数据集的方法,通过新增42个场景显著提升了场景覆盖度,为构建涵盖数十种语言和数百个场景的大规模空间数据集奠定了基础。

Wanchun Li, Alexandra Carstensen, Yang Xu, Terry Regier, Charles KempWed, 11 Ma💬 cs.CL

LLM as a Meta-Judge: Synthetic Data for NLP Evaluation Metric Validation

该论文提出了一种名为"LLM 作为元裁判”的可扩展框架,通过利用大语言模型对真实数据进行受控语义退化来生成合成评估数据集,从而替代昂贵且耗时的人工标注,并在机器翻译、问答和摘要任务中验证了该方法在评估指标验证方面能作为人类判断的高相关性可靠替代方案。

Lukáš Eigler, Jindřich Libovický, David HurychWed, 11 Ma💬 cs.CL

CyberThreat-Eval: Can Large Language Models Automate Real-World Threat Research?

本文针对现有基准在评估大语言模型自动化网络安全威胁情报(CTI)研究能力方面的不足,提出了基于真实专家工作流和分析师中心指标的"CyberThreat-Eval"基准,揭示了当前模型在处理复杂细节和区分信息真伪方面的局限性,并展示了结合外部知识库与人类反馈的改进方案。

Xiangsen Chen, Xuan Feng, Shuo Chen, Matthieu Maitre, Sudipto Rakshit, Diana Duvieilh, Ashley Picone, Nan TangWed, 11 Ma💬 cs.CL