SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models
Die Arbeit stellt SealQA vor, einen neuen Benchmark zur Bewertung von Suchmaschinen-gestützten Sprachmodellen bei faktischen Fragen mit widersprüchlichen oder unzuverlässigen Suchergebnissen, der zeigt, dass selbst fortschrittliche Modelle in der Lage sind, bei solchen Aufgaben nur sehr begrenzte Genauigkeit zu erreichen.