PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

O artigo apresenta o PropFly, um pipeline de treinamento para edição de vídeo baseada em propagação que elimina a necessidade de conjuntos de dados pareados ao utilizar supervisão em tempo real de modelos de difusão de vídeo pré-treinados, gerando pares de latentes "fonte" e "editado" dinamicamente para aprender transformações temporais consistentes e de alta qualidade.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Este artigo apresenta um método de reconstrução 3D conjunta que supera as limitações dos pipelines tradicionais ao integrar correspondências cruzadas entre sessões usando características visuais híbridas, permitindo a criação de modelos coerentes a partir de imagens capturadas com longos intervalos temporais e mudanças de aparência significativas, como em monitoramento de recifes de coral.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs

Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing

Este artigo propõe o InterFormer, um modelo transformador que utiliza um Gerador de Consultas Dinâmico, um Seletor de Recursos de Duplo Contexto e uma perda de Co-ocorrência Condicional para superar limitações existentes na segmentação de mãos e objetos em visão egocêntrica, alcançando desempenho de última geração e maior consistência física.

Yuejiao Su, Yi Wang, Lei Yao + 2 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

O artigo apresenta o SurgAtt-Tracker, um novo framework que rastreia a atenção cirúrgica online gerando mapas de calor densos e estáveis por meio de reranqueamento temporal e refinamento consciente do movimento, apoiado pelo grande banco de dados SurgAtt-1.16M para melhorar o controle de câmeras e o planejamento de campo de visão em cirurgias minimamente invasivas.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Este estudo demonstra a viabilidade de utilizar modelos de visão e linguagem para estimar não invasivamente as distâncias horizontal e vertical das mãos em tarefas de levantamento manual a partir de vídeos RGB, alcançando erros médios de 6 a 8 cm e confirmando que pipelines que incluem segmentação de pixels reduzem significativamente os erros de estimativa em comparação com abordagens baseadas apenas em detecção.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?

O paper apresenta o AnimeAgent, um framework multi-agente pioneiro baseado em modelos de Imagem para Vídeo que supera as limitações das abordagens estáticas atuais na geração de storyboards personalizados, garantindo maior consistência, expressividade e fidelidade ao prompt através de um processo iterativo inspirado no fluxo de trabalho da Disney.

Hailong Yan, Shice Liu, Tao Wang + 5 more2026-02-25💻 cs

BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

O artigo apresenta o BBQ, um modelo de texto para imagem em larga escala que permite controle preciso sobre a localização, o tamanho e a cor dos objetos ao condicionar a geração diretamente a coordenadas de caixas delimitadoras numéricas e tripletas RGB dentro de um framework de texto estruturado, sem necessidade de modificações arquitetônicas.

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid + 6 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Este estudo apresenta uma metodologia baseada em inteligência artificial que utiliza o modelo DeepLabV3 com backbone MobileNetV3, pré-treinado no conjunto de dados Flare7k++, para realizar a segmentação semântica de efeitos de luz parasita em câmeras espaciais, visando sua implementação em hardware com recursos limitados e integração com pipelines de navegação a bordo.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

O artigo apresenta o CleanStyle, um framework plug-and-play que elimina o vazamento de conteúdo em modelos de difusão para estilização de imagens ao filtrar componentes de ruído relacionados ao conteúdo via decomposição em valores singulares e introduzir um guia livre de classificador específico ao estilo, melhorando assim a fidelidade ao prompt e a qualidade visual sem necessidade de re-treinamento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs