Joint Optimization for 4D Human-Scene Reconstruction in the Wild

Este trabalho apresenta o JOSH, um método de otimização que reconstrói simultaneamente o movimento humano e o ambiente 4D a partir de vídeos monoculares capturados no mundo real, utilizando restrições de contato humano-cenário para melhorar a precisão, além de propor o modelo JOSH3R, treinado com pseudo-rótulos derivados do JOSH para alcançar resultados superiores sem necessidade de otimização.

Zhizheng Liu, Joe Lin, Wayne Wu + 1 more2026-02-27💻 cs

LinGuinE: Longitudinal Guidance Estimation for Volumetric Tumour Segmentation

O artigo apresenta o LinGuinE, um framework PyTorch inovador que combina registro de imagens e segmentação guiada para realizar a segmentação volumétrica longitudinal de tumores e o rastreamento de lesões em múltiplos exames a partir de uma única interação do radiologista, alcançando desempenho superior ao estado da arte sem necessidade de treinamento em dados longitudinais.

Nadine Garibli, Mayank Patwari, Bence Csiba + 2 more2026-02-27⚡ eess

Is Exchangeability better than I.I.D to handle Data Distribution Shifts while Pooling Data for Data-scarce Medical image segmentation?

Este artigo propõe uma abordagem baseada em causalidade que substitui a suposição de independência e distribuição idêntica (i.i.d.) pela de permutabilidade para gerenciar deslocamentos de distribuição em dados agrupados, resultando em desempenho superior de segmentação de imagens médicas escassas em cinco conjuntos de dados, incluindo um novo conjunto de ultrassom.

Ayush Roy, Samin Enam, Jun Xia + 2 more2026-02-27🤖 cs.LG

LayerT2V: A Unified Multi-Layer Video Generation Framework

O artigo apresenta o LayerT2V, um framework unificado de geração de vídeo que, aproveitando a alta compressão de backbones recentes e um novo dataset chamado VidLayer, produz em uma única inferência vídeos completos com camadas de fundo e múltiplos objetos em primeiro plano com máscaras alfa, garantindo consistência semântica e temporal superior para fluxos de trabalho profissionais.

Guangzhao Li, Kangrui Cen, Baixuan Zhao + 5 more2026-02-27🤖 cs.AI

Adaptive Hybrid Caching for Efficient Text-to-Video Diffusion Model Acceleration

O artigo apresenta o MixCache, um framework de inferência sem treinamento para modelos de difusão de vídeo baseados em Transformer que acelera significativamente a geração de vídeo ao combinar estratégias de cache de múltiplas granularidades com decisões adaptativas e acionamento baseado em contexto, superando os métodos existentes em velocidade e qualidade.

Yuanxin Wei, Lansong Diao, Bujiao Chen + 6 more2026-02-27🤖 cs.LG