Aligned explanations in neural networks
Il paper introduce i PiNets, un framework di deep learning basato sul principio di leggibilità del modello, che garantisce allineamento esplicativo assicurando che le spiegazioni riflettano direttamente il processo decisionale del modello piuttosto che fungere da razionalizzazioni, ottenendo al contempo fedeltà in termini di significatività, robustezza e sufficienza.