ABD: Default Exception Abduction in Finite First Order Worlds
Il paper introduce ABD, un benchmark per valutare la capacità dei modelli linguistici di generare formule logiche di prima ordine che definiscono eccezioni sparsamente in mondi finiti, evidenziando attraverso l'analisi di dieci modelli all'avanguardia su 600 istanze che, sebbene ottengano alta validità, persistono significative lacune nella parsimonia e modalità di fallimento nella generalizzazione.