Give me scissors: Collision-Free Dual-Arm Surgical Assistive Robot for Instrument Delivery

Questo articolo presenta un robot assistivo chirurgico a due bracci in grado di consegnare strumenti in modo autonomo e privo di collisioni, utilizzando modelli linguaggio-visione per interpretare i comandi e un framework di programmazione quadratica per evitare ostacoli in tempo reale, raggiungendo un tasso di successo dell'83,33% in ambienti dinamici.

Xuejin Luo, Shiquan Sun, Runshi Zhang + 2 more2026-03-04🤖 cs.LG

Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Il paper propone GKD, un framework di distillazione della conoscenza che, disaccoppiando l'apprendimento delle rappresentazioni dall'adattamento al compito e introducendo un meccanismo di distillazione soft basato su query, migliora significativamente la generalizzazione fuori dominio nei modelli di segmentazione semantica derivati da foundation model visivi.

Chonghua Lv, Dong Zhao, Shuang Wang + 4 more2026-03-04💻 cs

CAWM-Mamba: A unified model for infrared-visible image fusion and compound adverse weather restoration

Il paper presenta CAWM-Mamba, un modello unificato end-to-end che combina fusione di immagini infrarosso-visibili e ripristino da condizioni meteorologiche composte, superando i limiti delle metodologie esistenti grazie a componenti innovativi come il modulo di pre-elaborazione consapevole del meteo e il blocco stato-spazio nello spazio delle ondelette.

Huichun Liu, Xiaosong Li, Zhuangfan Huang + 3 more2026-03-04💻 cs

Maximizing Generalization: The Effect of Different Augmentation Techniques on Lightweight Vision Transformer for Bengali Character Classification

Questo studio dimostra che l'uso combinato di tecniche di aumento dei dati come Affine Casuale e Jitter di Colore, applicate a un modello Vision Transformer leggero come EfficientViT, massimizza la generalizzazione e raggiunge prestazioni superiori (fino al 97,57%) nella classificazione dei caratteri scritti a mano in bengalese, affrontando efficacemente la carenza di grandi dataset per le lingue con risorse limitate.

Rafi Hassan Chowdhury, Naimul Haque, Kaniz Fatiha2026-03-04💻 cs

Towards an Incremental Unified Multimodal Anomaly Detection: Augmenting Multimodal Denoising From an Information Bottleneck Perspective

Il paper propone IB-IUMAD, un nuovo framework di denoising che combina un decoder Mamba e un modulo di fusione basato sul collo di bottiglia dell'informazione per mitigare la dimenticanza catastrofica nell'addestramento incrementale di modelli unificati multimodali per il rilevamento di anomalie, eliminando le caratteristiche spurie e ridondanti che ne compromettono le prestazioni.

Kaifang Long, Lianbo Ma, Jiaqi Liu + 2 more2026-03-04💻 cs

Evaluating Cross-Modal Reasoning Ability and Problem Characteristics with Multimodal Item Response Theory

Il paper introduce M3IRT, un framework basato sulla teoria della risposta all'elemento multidimensionale che decompone abilità e difficoltà in componenti visive, testuali e multimodali, permettendo di identificare e selezionare domande autenticamente cross-modali per valutare in modo più affidabile ed efficiente i modelli linguistici multimodali.

Shunki Uebayashi, Kento Masui, Kyohei Atarashi + 5 more2026-03-04💬 cs.CL