A Coin Flip for Safety: LLM Judges Fail to Reliably Measure Adversarial Robustness
Die Studie zeigt, dass LLM-basierte Richter bei der Bewertung der adversären Robustheit von KI-Modellen aufgrund von Verteilungsverschiebungen oft nur zufällige Ergebnisse liefern und viele Angriffe deren Schwächen ausnutzen, weshalb die Autoren mit ReliableBench und JudgeStressTest neue, zuverlässigere Evaluierungsstandards vorschlagen.