ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Este trabalho apresenta o ORMOT, uma nova tarefa de rastreamento multi-objeto omnidirecional guiada por linguagem, acompanhada do dataset ORSet e do framework ORTrack baseado em Modelos de Linguagem e Visão de Grande Escala (LVLM), projetados para superar as limitações de campo de visão dos métodos tradicionais e melhorar o rastreamento de objetos em cenas panorâmicas.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

O artigo apresenta o MobileFetalCLIP, um modelo de aprendizado profundo leve que utiliza uma técnica inovadora de destilação de conhecimento repulsiva seletiva para superar as limitações de capacidade de modelos maiores, permitindo a análise em tempo real de ultrassons fetais em dispositivos móveis com desempenho superior ao do modelo professor.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

O artigo apresenta o SAIL, um método de aprendizado para legendagem densa de vídeos fraca-supervisionada que supera as limitações de abordagens anteriores ao utilizar alinhamento cross-modal para criar máscaras semanticamente conscientes e uma estratégia de aumento baseada em LLM para gerar legendas sintéticas, alcançando desempenho state-of-the-art nas métricas de legendagem e localização temporal.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

O artigo apresenta o agendador Longest Stable Prefix (LSP), uma abordagem de inferência sem treinamento que acelera a geração de texto em Modelos de Linguagem de Difusão (DLMs) em até 3,4 vezes ao substituir a aceitação fragmentada por uma absorção monolítica de prefixos, otimizando assim o uso da cache KV e melhorando a eficiência de hardware sem comprometer a qualidade do texto.

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

Transformer-Based Inpainting for Real-Time 3D Streaming in Sparse Multi-Camera Setups

Este artigo propõe um método de inpainting baseado em transformadores e sensível a múltiplas vistas, projetado como um módulo pós-processamento independente para preencher lacunas de textura em tempo real em streaming 3D com câmeras esparsas, garantindo consistência espaço-temporal e alto desempenho sem depender da representação subjacente.

Leif Van Holland, Domenic Zingsheim, Mana Takhsha + 4 more2026-03-06💻 cs