A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Questo studio presenta un sistema avanzato di rilevamento delle luci blu di emergenza basato su quattro telecamere fisheye e un modello RT-DETR potenziato da un blocco di attenzione al colore, che utilizza il dataset ABLDataset per ottenere un'accuratezza del 94,7% e supportare la sicurezza stradale attraverso l'integrazione in sistemi ADAS multimodali.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

Il paper presenta MI-DETR, un innovativo rilevatore bio-ispirato per piccoli target infrarossi in movimento che integra mappe di movimento derivate da un automa cellulare simile alla retina con pathway di aspetto paralleli, ottenendo prestazioni eccezionali su diversi benchmark senza richiedere supervisione aggiuntiva per il movimento o moduli di allineamento espliciti.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

Il paper propone GEM-TFL, un framework innovativo che colma il divario tra supervisione debole e completa per la localizzazione temporale di falsificazioni, integrando decomposizione guidata da EM, affinamento temporale senza training e un modulo di raffinamento basato su grafi per ottenere risultati più accurati e robusti.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Act, Think or Abstain: Complexity-Aware Adaptive Inference for Vision-Language-Action Models

Il paper propone un framework adattivo per i modelli Vision-Language-Action che, ispirandosi alla cognizione umana, ottimizza l'allocazione delle risorse dinamicamente scegliendo tra agire, ragionare o astenersi in base alla complessità del compito, utilizzando con successo solo le embedding visive per rilevare tale complessità con elevata efficienza e affidabilità.

Riccardo Andrea Izzo, Gianluca Bardaro, Matteo Matteucci2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

Il paper presenta Mario, un framework innovativo che abilita il ragionamento sui grafi multimodali utilizzando modelli linguistici di grandi dimensioni attraverso un design di VLM condizionato al grafo e un addestramento su istruzioni adattivo alle modalità, superando le sfide di coerenza cross-modale e preferenze eterogenee per ottenere prestazioni superiori rispetto agli stati dell'arte.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs