How Much Do LLMs Hallucinate in Document Q&A Scenarios? A 172-Billion-Token Study Across Temperatures, Context Lengths, and Hardware Platforms
Diese Studie analysiert auf Basis von 172 Milliarden Token die Halluzinationsraten verschiedener LLMs in Dokumenten-Q&A-Szenarien und zeigt, dass die Modellwahl den größten Einfluss hat, während sich die Fehlerquote mit zunehmendem Kontextumfang drastisch erhöht und Hardware-Plattformen kaum eine Rolle spielen.