Mario: Multimodal Graph Reasoning with Large Language Models
El paper presenta Mario, un marco unificado que permite el razonamiento en grafos multimodales mediante grandes modelos de lenguaje al abordar la consistencia intermodal y la preferencia heterogénea de modalidades a través de un diseño de modelo visión-idioma condicionado por grafos y un ajuste de instrucciones adaptativo.