cs.CV artigos | Gist.Science

An interactive enhanced driving dataset for autonomous driving

Este artigo apresenta o IEDD, um novo conjunto de dados interativo e aprimorado para direção autônoma, que inclui um pipeline escalável para extrair segmentos de interação, métricas para quantificar esses processos e um subconjunto VQA com vídeos sintéticos de visão de pássaro para avaliar e aprimorar o raciocínio de modelos de linguagem e visão.

Haojie Feng, Peizhi Zhang, Mengjie Tian + 8 more2026-02-25💻 cs

Efficient and Explainable End-to-End Autonomous Driving via Masked Vision-Language-Action Diffusion

O artigo apresenta o MVLAD-AD, um novo quadro de difusão mascarada que integra visão, linguagem e ação para condução autônoma, superando os desafios de latência e precisão dos modelos existentes ao utilizar uma tokenização discreta de ações e embeddings geométricos para gerar trajetórias eficientes e explicáveis.

Jiaru Zhang, Manav Gagvani, Can Cui + 3 more2026-02-25💻 cs

PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

O artigo apresenta o PropFly, um pipeline de treinamento para edição de vídeo baseada em propagação que elimina a necessidade de conjuntos de dados pareados ao utilizar supervisão em tempo real de modelos de difusão de vídeo pré-treinados, gerando pares de latentes "fonte" e "editado" dinamicamente para aprender transformações temporais consistentes e de alta qualidade.

Wonyong Seo, Jaeho Moon, Jaehyup Lee + 2 more2026-02-25💻 cs

Long-Term Multi-Session 3D Reconstruction Under Substantial Appearance Change

Este artigo apresenta um método de reconstrução 3D conjunta que supera as limitações dos pipelines tradicionais ao integrar correspondências cruzadas entre sessões usando características visuais híbridas, permitindo a criação de modelos coerentes a partir de imagens capturadas com longos intervalos temporais e mudanças de aparência significativas, como em monitoramento de recifes de coral.

Beverley Gorry, Tobias Fischer, Michael Milford + 1 more2026-02-25💻 cs

Interaction-aware Representation Modeling with Co-occurrence Consistency for Egocentric Hand-Object Parsing

Este artigo propõe o InterFormer, um modelo transformador que utiliza um Gerador de Consultas Dinâmico, um Seletor de Recursos de Duplo Contexto e uma perda de Co-ocorrência Condicional para superar limitações existentes na segmentação de mãos e objetos em visão egocêntrica, alcançando desempenho de última geração e maior consistência física.

Yuejiao Su, Yi Wang, Lei Yao + 2 more2026-02-25💻 cs

VAGNet: Grounding 3D Affordance from Human-Object Interactions in Videos

O artigo apresenta o VAGNet, um novo framework que utiliza sequências de interação dinâmica em vídeos para melhorar a localização de affordances 3D, superando as limitações de abordagens estáticas e introduzindo o dataset PVAD para suporte a essa tarefa.

Aihua Mao, Kaihang Huang, Yong-Jin Liu + 2 more2026-02-25💻 cs

Knowing the Unknown: Interpretable Open-World Object Detection via Concept Decomposition Model

Este artigo propõe o framework IPOW, que utiliza um Modelo de Decomposição de Conceitos para tornar a detecção de objetos em mundo aberto interpretável, melhorando a identificação de objetos desconhecidos e reduzindo a confusão entre categorias conhecidas e desconhecidas.

Xueqiang Lv, Shizhou Zhang, Yinghui Xing + 3 more2026-02-25🤖 cs.LG

RecoverMark: Robust Watermarking for Localization and Recovery of Manipulated Faces

O artigo apresenta o RecoverMark, um framework de marcação d'água robusto que utiliza o próprio conteúdo facial como marca d'água embutida no fundo da imagem, permitindo simultaneamente a localização, recuperação e verificação de propriedade de rostos manipulados, mesmo sob ataques de remoção de marca d'água.

Haonan An, Xiaohui Ye, Guang Hua + 4 more2026-02-25💻 cs

Boosting Instance Awareness via Cross-View Correlation with 4D Radar and Camera for 3D Object Detection

O artigo apresenta o SIFormer, um modelo baseado em transformadores que aprimora a detecção 3D de objetos ao fundir dados de radar 4D e câmeras, superando as limitações de esparsidade do radar e a falta de foco em instâncias dos métodos existentes através de um mecanismo de ativação cruzada entre vistas.

Xiaokai Bai, Lianqing Zheng, Si-Yuan Cao + 6 more2026-02-25💻 cs

SurgAtt-Tracker: Online Surgical Attention Tracking via Temporal Proposal Reranking and Motion-Aware Refinement

O artigo apresenta o SurgAtt-Tracker, um novo framework que rastreia a atenção cirúrgica online gerando mapas de calor densos e estáveis por meio de reranqueamento temporal e refinamento consciente do movimento, apoiado pelo grande banco de dados SurgAtt-1.16M para melhorar o controle de câmeras e o planejamento de campo de visão em cirurgias minimamente invasivas.

Rulin Zhou, Guankun Wang, An Wang + 12 more2026-02-25🤖 cs.AI

SD4R: Sparse-to-Dense Learning for 3D Object Detection with 4D Radar

O artigo apresenta o SD4R, um novo framework que transforma nuvens de pontos de radar 4D esparsas em representações densas por meio de um gerador de pontos de primeiro plano e um codificador logit-query, alcançando desempenho superior ao estado da arte na detecção 3D de objetos.

Xiaokai Bai, Jiahao Cheng, Songkai Wang + 5 more2026-02-25💻 cs

Vision-Language Models for Ergonomic Assessment of Manual Lifting Tasks: Estimating Horizontal and Vertical Hand Distances from RGB Video

Este estudo demonstra a viabilidade de utilizar modelos de visão e linguagem para estimar não invasivamente as distâncias horizontal e vertical das mãos em tarefas de levantamento manual a partir de vídeos RGB, alcançando erros médios de 6 a 8 cm e confirmando que pipelines que incluem segmentação de pixels reduzem significativamente os erros de estimativa em comparação com abordagens baseadas apenas em detecção.

Mohammad Sadra Rajabi, Aanuoluwapo Ojelade, Sunwook Kim + 1 more2026-02-25🤖 cs.AI

AnimeAgent: Is the Multi-Agent via Image-to-Video models a Good Disney Storytelling Artist?

O paper apresenta o AnimeAgent, um framework multi-agente pioneiro baseado em modelos de Imagem para Vídeo que supera as limitações das abordagens estáticas atuais na geração de storyboards personalizados, garantindo maior consistência, expressividade e fidelidade ao prompt através de um processo iterativo inspirado no fluxo de trabalho da Disney.

Hailong Yan, Shice Liu, Tao Wang + 5 more2026-02-25💻 cs

BoxSplitGen: A Generative Model for 3D Part Bounding Boxes in Varying Granularity

O artigo apresenta o BoxSplitGen, um modelo generativo inovador que facilita a criação 3D interativa ao iterativamente dividir caixas delimitadoras para refinar abstrações em detalhes e, subsequentemente, gerar formas 3D realistas condicionadas a essas caixas.

Juil Koo, Wei-Tung Lin, Chanho Park + 2 more2026-02-25💻 cs

BBQ-to-Image: Numeric Bounding Box and Qolor Control in Large-Scale Text-to-Image Models

O artigo apresenta o BBQ, um modelo de texto para imagem em larga escala que permite controle preciso sobre a localização, o tamanho e a cor dos objetos ao condicionar a geração diretamente a coordenadas de caixas delimitadoras numéricas e tripletas RGB dentro de um framework de texto estruturado, sem necessidade de modificações arquitetônicas.

Eliran Kachlon, Alexander Visheratin, Nimrod Sarid + 6 more2026-02-25💻 cs

MatchED: Crisp Edge Detection Using End-to-End, Matching-based Supervision

O artigo apresenta o MatchED, um módulo de supervisão baseado em correspondência leve e plug-and-play que permite a detecção de bordas nítidas (de um pixel) de forma end-to-end, eliminando a necessidade de pós-processamento não diferenciável e alcançando desempenho superior ao estado da arte em múltiplos conjuntos de dados.

Bedrettin Cetinkaya, Sinan Kalkan, Emre Akbas2026-02-25💻 cs

NGL-Prompter: Training-Free Sewing Pattern Estimation from a Single Image

O artigo apresenta o NGL-Prompter, um método sem treinamento que utiliza modelos de linguagem visual de grande escala e uma nova linguagem intermediária (NGL) para estimar padrões de costura a partir de uma única imagem, superando os métodos existentes na generalização para roupas reais e conjuntos multicamadas.

Anna Badalyan, Pratheba Selvaraju, Giorgio Becherini + 3 more2026-02-25💻 cs

Onboard-Targeted Segmentation of Straylight in Space Camera Sensors

Este estudo apresenta uma metodologia baseada em inteligência artificial que utiliza o modelo DeepLabV3 com backbone MobileNetV3, pré-treinado no conjunto de dados Flare7k++, para realizar a segmentação semântica de efeitos de luz parasita em câmeras espaciais, visando sua implementação em hardware com recursos limitados e integração com pipelines de navegação a bordo.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

Monocular Endoscopic Tissue 3D Reconstruction with Multi-Level Geometry Regularization

Este artigo apresenta um método inovador baseado em 3D Gaussian Splatting para reconstrução 3D de tecidos endoscópicos deformáveis, que combina regularização geométrica multi-nível e restrições de deformação física para garantir superfícies suaves e renderização em tempo real.

Yangsen Chen, Hao Wang2026-02-25💻 cs

CleanStyle: Plug-and-Play Style Conditioning Purification for Text-to-Image Stylization

O artigo apresenta o CleanStyle, um framework plug-and-play que elimina o vazamento de conteúdo em modelos de difusão para estilização de imagens ao filtrar componentes de ruído relacionados ao conteúdo via decomposição em valores singulares e introduzir um guia livre de classificador específico ao estilo, melhorando assim a fidelidade ao prompt e a qualidade visual sem necessidade de re-treinamento.

Xiaoman Feng, Mingkun Lei, Yang Wang + 2 more2026-02-25💻 cs

← Anterior Próximo →