DLM: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models
Il paper presenta DL³M, un framework che combina il modello ibrido MobileCoAtNet per la classificazione di immagini endoscopiche con grandi modelli linguistici per generare ragionamenti clinici strutturati, evidenziando come, sebbene una classificazione accurata migliori la qualità delle spiegazioni, gli attuali LLM rimangano ancora inaffidabili per le decisioni mediche ad alto rischio a causa della loro instabilità.