Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset
Il paper presenta Merlin, un modello fondazionale visione-linguaggio 3D addestrato su un vasto dataset clinico di scansioni TC addominali e dati sanitari, che supera i modelli esistenti nel comprendere volumi medici complessi e nel svolgere compiti diagnostici, prognostici e di generazione di report senza necessità di annotazioni manuali aggiuntive.