Towards Controllable Video Synthesis of Routine and Rare OR Events

Questo lavoro presenta un framework di sintesi video basato su diffusione che, trasformando le scene chirurgiche in rappresentazioni geometriche astratte, permette di generare in modo controllato eventi rari e critici per la sicurezza in sala operatoria, superando le limitazioni dei dataset reali e supportando lo sviluppo di modelli di intelligenza artificiale per il rilevamento di violazioni del campo sterile.

Dominik Schneider, Lalithkumar Seenivasan, Sampath Rapuri + 8 more2026-02-26⚡ eess

MMLoP: Multi-Modal Low-Rank Prompting for Efficient Vision-Language Adaptation

Il paper propone MMLoP, un framework di prompting multi-modale a basso rango che adatta efficientemente i modelli visione-linguaggio come CLIP a compiti downstream con soli 11.5K parametri, ottenendo prestazioni superiori rispetto ai metodi esistenti grazie a tecniche di regolarizzazione, correzione della deriva e allineamento cross-modale.

Sajjad Ghiasvand, Haniyeh Ehsani Oskouie, Mahnoosh Alizadeh + 1 more2026-02-26🤖 cs.LG

Exploring Vision-Language Models for Open-Vocabulary Zero-Shot Action Segmentation

Questo lavoro introduce un approccio senza addestramento per la segmentazione temporale delle azioni a vocabolario aperto (OVTAS) sfruttando le capacità zero-shot dei modelli visione-linguaggio, proponendo una pipeline che combina l'adattamento delle embedding e la coerenza temporale, e fornendo la prima analisi sistematica di 14 diversi VLM su benchmark standard.

Asim Unmesh, Kaki Ramesh, Mayank Patel + 2 more2026-02-26💻 cs

Automating Timed Up and Go Phase Segmentation and Gait Analysis via the tugturn Markerless 3D Pipeline

Il documento presenta *tugturn.py*, un flusso di lavoro Python open-source per l'analisi biomeccanica 3D senza marcatori del test Timed Up and Go, che automatizza la segmentazione delle fasi, il rilevamento degli eventi del passo e il calcolo di metriche di stabilità dinamica, garantendo risultati riproducibili attraverso report HTML e tabelle CSV.

Abel Gonçalves Chinaglia, Guilherme Manna Cesar, Paulo Roberto Pereira Santiago2026-02-26💻 cs

Adversarial Robustness of Deep Learning-Based Thyroid Nodule Segmentation in Ultrasound

Lo studio valuta la robustità di un modello di segmentazione basato su deep learning per i noduli tiroidei agli attacchi avversariali nell'ecografia, dimostrando che mentre le perturbazioni spaziali possono essere parzialmente mitigate tramite pre-elaborazione dell'input, quelle nel dominio della frequenza rimangono efficaci e non mitigabili dalle difese testate.

Nicholas Dietrich, David McShannon2026-02-26🤖 cs.AI

Unified Unsupervised and Sparsely-Supervised 3D Object Detection by Semantic Pseudo-Labeling and Prototype Learning

Il paper propone SPL, un quadro di addestramento unificato per il rilevamento di oggetti 3D senza supervisione o con supervisione scarsa che combina etichettatura pseudo-semantica e apprendimento prototipale per generare pseudo-etichette di alta qualità e stabilizzare l'apprendimento delle caratteristiche, superando così le prestazioni dello stato dell'arte sui dataset KITTI e nuScenes.

Yushen He2026-02-26💻 cs

WaterVIB: Learning Minimal Sufficient Watermark Representations via Variational Information Bottleneck

Il paper presenta WaterVIB, un framework basato sul principio del collo di bottiglia dell'informazione variazionale che, estraendo statistiche sufficienti minime e filtrando le texture ad alta frequenza del contenuto originale, garantisce una robustezza superiore dei watermark contro gli attacchi di rigenerazione basati sull'IA generativa.

Haoyuan He, Yu Zheng, Jie Zhou + 1 more2026-02-26🤖 cs.LG

LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies

Il paper presenta LiLo-VLA, un framework modulare che combina un modulo di raggiungimento globale con un modulo di interazione basato su VLA centrato sugli oggetti per abilitare la generalizzazione zero-shot e il recupero robusto nei compiti di manipolazione a lungo orizzonte, ottenendo prestazioni superiori rispetto agli approcci end-to-end sia in simulazione che nel mondo reale.

Yue Yang, Shuo Cheng, Yu Fang + 4 more2026-02-26⚡ eess