Mario: Multimodal Graph Reasoning with Large Language Models

Il paper presenta Mario, un framework innovativo che abilita il ragionamento sui grafi multimodali utilizzando modelli linguistici di grandi dimensioni attraverso un design di VLM condizionato al grafo e un addestramento su istruzioni adattivo alle modalità, superando le sfide di coerenza cross-modale e preferenze eterogenee per ottenere prestazioni superiori rispetto agli stati dell'arte.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Questo lavoro presenta un sistema robotico di smistamento tessile guidato dal gemello digitale che integra percezione multimodale e modelli linguistici visivi (VLM) per classificare abbigliamento e rilevare oggetti estranei in ambienti industriali complessi, dimostrando l'efficacia dell'approccio Qwen per l'accuratezza e di modelli più leggeri per la distribuzione su edge.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Questo studio dimostra che per l'analisi OOD dei Vision Transformer è fondamentale scegliere strategicamente sia il livello intermedio che il modulo specifico da sondare, rivelando che l'attivazione interna della rete feed-forward è ottimale in caso di forte shift distributivo, mentre l'output normalizzato dell'attenzione multi-testa lo è quando lo shift è debole.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG