ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning
Die Arbeit stellt ActiveUltraFeedback vor, eine modulare Active-Learning-Pipeline, die durch die gezielte Auswahl unsicherer oder qualitativ stark unterschiedlicher Antwortpaare hochwertige Präferenzdaten mit nur einem Sechstel des Annotationsaufwands im Vergleich zu statischen Baselines generiert und so die Leistung von Large Language Models signifikant verbessert.