DLM: A Vision-to-Language Framework for Expert-Level Medical Reasoning through Deep Learning and Large Language Models
El marco DL³M propuesto integra un modelo de clasificación híbrido (MobileCoAtNet) con grandes modelos de lenguaje para generar razonamiento clínico estructurado a partir de imágenes endoscópicas, demostrando que, aunque esta combinación mejora la calidad de las explicaciones, los modelos actuales aún carecen de la estabilidad necesaria para decisiones médicas de alto riesgo.