GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Il paper propone GEM-TFL, un framework innovativo che colma il divario tra supervisione debole e completa per la localizzazione temporale di falsificazioni, integrando decomposizione guidata da EM, affinamento temporale senza training e un modulo di raffinamento basato su grafi per ottenere risultati più accurati e robusti.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Il paper propone un framework adattivo per i modelli Vision-Language-Action che, ispirandosi alla cognizione umana, ottimizza l'allocazione delle risorse dinamicamente scegliendo tra agire, ragionare o astenersi in base alla complessità del compito, utilizzando con successo solo le embedding visive per rilevare tale complessità con elevata efficienza e affidabilità.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

Il paper presenta Mario, un framework innovativo che abilita il ragionamento sui grafi multimodali utilizzando modelli linguistici di grandi dimensioni attraverso un design di VLM condizionato al grafo e un addestramento su istruzioni adattivo alle modalità, superando le sfide di coerenza cross-modale e preferenze eterogenee per ottenere prestazioni superiori rispetto agli stati dell'arte.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Questo lavoro presenta un sistema robotico di smistamento tessile guidato dal gemello digitale che integra percezione multimodale e modelli linguistici visivi (VLM) per classificare abbigliamento e rilevare oggetti estranei in ambienti industriali complessi, dimostrando l'efficacia dell'approccio Qwen per l'accuratezza e di modelli più leggeri per la distribuzione su edge.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs