AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions
Dit paper introduceert AQuA, een gedetailleerd dataset en framework dat Vision-Language Models in staat stelt om ambiguïteit in visuele vragen te herkennen en strategisch te reageren door de juiste respons te kiezen, zoals het vragen om verduidelijking of het geven van alternatieve antwoorden, in plaats van overmoedig te antwoorden.