cs.CV artigos | Gist.Science

3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding

O artigo apresenta o 3D-RFT, um novo paradigma que aplica o Ajuste Fino por Reforço com Recompensas Verificáveis (RLVR) para otimizar diretamente modelos multimodais de grande escala em tarefas de compreensão de cenas 3D baseadas em vídeo, superando o desempenho de métodos anteriores e de modelos maiores ao alinhar os objetivos de treinamento com métricas de avaliação específicas.

Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia + 1 more2026-03-06🤖 cs.AI

Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding

O artigo apresenta o VideoHV-Agent, um framework multiagente que aborda a compreensão de vídeos longos reformulando a tarefa como um processo estruturado de formulação e verificação de hipóteses, alcançando resultados de última geração em precisão, interpretabilidade e eficiência computacional.

Zheng Wang, Haoran Chen, Haoxuan Qin + 3 more2026-03-06💻 cs

A Simple Baseline for Unifying Understanding, Generation, and Editing via Vanilla Next-token Prediction

O artigo apresenta o Wallaroo, uma linha de base simples baseada em previsão de próximo token que unifica compreensão, geração e edição multimodais, suportando múltiplas resoluções e os idiomas chinês e inglês, com desempenho competitivo em diversos benchmarks.

Jie Zhu, Hanghang Ma, Jia Wang + 6 more2026-03-06💻 cs

TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

O artigo apresenta o TAPFormer, um framework baseado em transformers que utiliza fusão assíncrona transitória e atenção local ponderada para realizar rastreamento robusto de pontos arbitrários combinando quadros RGB e eventos, superando os métodos existentes em precisão e adaptabilidade a condições adversas.

Jiaxiong Liu, Zhen Tan, Jinpu Zhang + 4 more2026-03-06💻 cs

MultiGO++: Monocular 3D Clothed Human Reconstruction via Geometry-Texture Collaboration

O artigo apresenta o MultiGO++, um novo framework de reconstrução 3D de humanos vestidos a partir de uma única imagem que supera as limitações existentes através de uma colaboração eficaz entre geometria e textura, utilizando síntese de textura multi-fonte, extração de forma consciente de regiões e uma rede U-Net de dupla reconstrução para gerar malhas texturizadas de alta fidelidade.

Nanjie Yao, Gangjian Zhang, Wenhao Shen + 3 more2026-03-06💻 cs

Physics-consistent deep learning for blind aberration recovery in mobile optics

O artigo apresenta o Lens2Zernike, um framework de aprendizado profundo que recupera parâmetros ópticos físicos a partir de uma única imagem borrada ao integrar supervisão em três domínios ópticos distintos, superando métodos existentes e permitindo uma restauração estável de detalhes em fotografias de dispositivos móveis.

Kartik Jhawar, Tamo Sancho Miguel Tandoc, Khoo Jun Xuan + 1 more2026-03-06💻 cs

How far have we gone in Generative Image Restoration? A study on its capability, limitations and evaluation practices

Este trabalho apresenta um estudo em larga escala sobre a Restauração de Imagens Generativa, utilizando uma nova pipeline de avaliação multidimensional para revelar que o campo evoluiu do desafio da escassez de detalhes para a necessidade de controlar a qualidade e a semântica dos detalhes gerados, ao mesmo tempo que propõe um novo modelo de avaliação de qualidade de imagem alinhado ao julgamento humano.

Xiang Yin, Jinfan Hu, Zhiyuan You + 4 more2026-03-06💻 cs

Tell2Adapt: A Unified Framework for Source Free Unsupervised Domain Adaptation via Vision Foundation Model

O artigo apresenta o Tell2Adapt, um novo framework unificado para Adaptação de Domínio Não Supervisionada sem Fonte (SFUDA) em segmentação de imagens médicas que aproveita modelos de fundação visuais com regularização de prompts e refinamento de plausibilidade visual para superar limitações de generalização e alcançar desempenho superior em diversos cenários clínicos.

Yulong Shi, Shijie Li, Ziyi Li + 1 more2026-03-06💻 cs

Generalizable Multiscale Segmentation of Heterogeneous Map Collections

Este artigo apresenta o Semap, um novo conjunto de dados de referência, e um framework de segmentação semântica generalizável que, ao combinar síntese procedural de dados com integração multiescala, alcança desempenho superior e robustez na segmentação de coleções heterogêneas de mapas históricos, facilitando sua integração a estudos geohistóricos.

Remi Petitpierre2026-03-06💻 cs

Exploiting Intermediate Reconstructions in Optical Coherence Tomography for Test-Time Adaption of Medical Image Segmentation

Este trabalho propõe o IRTTA, um método de adaptação em tempo de teste que melhora a segmentação de imagens de Tomografia de Coerência Óptica ao aproveitar as representações intermediárias do processo de reconstrução para ajustar dinamicamente as camadas de normalização de uma rede congelada, sem modificar o processo de reconstrução ou o modelo original.

Thomas Pinetz, Veit Hucke, Hrvoje Bogunovic2026-03-06💻 cs

CoIn3D: Revisiting Configuration-Invariant Multi-Camera 3D Object Detection

O artigo apresenta o CoIn3D, um framework generalizável para detecção 3D de objetos com múltiplas câmeras que supera as limitações de transferência entre diferentes configurações de sensores ao incorporar explicitamente discrepâncias de priores espaciais (como intrínsecos, extrínsecos e layouts) através de modulação de características espaciais e aumento de dados orientado à câmera.

Zhaonian Kuang, Rui Ding, Haotian Wang + 3 more2026-03-06💻 cs

CLIP-driven Zero-shot Learning with Ambiguous Labels

O artigo propõe o framework CLIP-PZSL, uma abordagem de aprendizado zero-shot que utiliza o modelo CLIP e um mecanismo de mineração semântica para lidar com rótulos ambíguos, refinando progressivamente os rótulos verdadeiros e melhorando o alinhamento entre instâncias e rótulos para aumentar a precisão em cenários do mundo real.

Jinfu Fan, Jiangnan Li, Xiaowen Yan + 3 more2026-03-06💻 cs

A 360-degree Multi-camera System for Blue Emergency Light Detection Using Color Attention RT-DETR and the ABLDataset

Este estudo apresenta um sistema de detecção de luzes de emergência azuis em 360 graus, baseado em quatro câmeras de olho de peixe e aprimorado com um bloco de atenção de cor no modelo RT-DETR, que alcança alta precisão e alcance de 70 metros para integrar-se a sistemas ADAS multimodais visando aumentar a segurança rodoviária.

Francisco Vacalebri-Lloret, Lucas Banchero, Jose J. Lopez + 1 more2026-03-06🤖 cs.AI

MI-DETR: A Strong Baseline for Moving Infrared Small Target Detection with Bio-Inspired Motion Integration

O artigo apresenta o MI-DETR, um detector bio-inspirado que integra explicitamente mapas de movimento e aparência através de um mecanismo celular e de interconexão parvocelular-magnocelular, alcançando desempenho superior na detecção de pequenos alvos infravermelhos em benchmarks padrão sem a necessidade de rótulos ou módulos de alinhamento adicionais.

Nian Liu, Jin Gao, Shubo Lin + 8 more2026-03-06💻 cs

UniM: A Unified Any-to-Any Interleaved Multimodal Benchmark

Este artigo apresenta o UniM, o primeiro benchmark unificado de multimodalidade "qualquer-para-qualquer" com dados intercalados, juntamente com sua suite de avaliação e um modelo baseline chamado UniMA, para impulsionar o desenvolvimento de modelos de linguagem multimodal capazes de compreender e gerar entradas e saídas multimodais arbitrariamente combinadas.

Yanlin Li, Minghui Guo, Kaiwen Zhang + 13 more2026-03-06💻 cs

MoRe: Motion-aware Feed-forward 4D Reconstruction Transformer

O MoRe é uma rede de reconstrução 4D feed-forward eficiente que utiliza uma estratégia de atenção forçada e atenção causal agrupada para recuperar cenas dinâmicas de vídeos monoculares com alta qualidade e robustez, superando as limitações computacionais dos métodos de otimização existentes.

Juntong Fang, Zequn Chen, Weiqi Zhang + 4 more2026-03-06💻 cs

Orthogonal Spatial-temporal Distributional Transfer for 4D Generation

Este artigo propõe o Orster, um novo mecanismo de transferência de distribuição espacial-temporal ortogonal que integra priores espaciais e temporais de modelos 3D e de vídeo em um modelo de difusão 4D desentrelaçado, superando a escassez de dados para gerar conteúdo 4D de alta qualidade com consistência superior.

Wei Liu, Shengqiong Wu, Bobo Li + 4 more2026-03-06💻 cs

Axiomatic On-Manifold Shapley via Optimal Generative Flows

Este artigo propõe uma teoria formal de atribuições Aumann-Shapley em variedades baseada em fluxos generativos ótimos, que resolve artefatos fora da variedade ao definir um caminho de atribuição canônico como a geodésica de Wasserstein-2 que minimiza a energia cinética, garantindo invariância de reparametrização e superior alinhamento semântico em comparação com métodos existentes.

Cenwei Zhang, Lin Zhu, Manxi Lin + 1 more2026-03-06🤖 cs.AI

GEM-TFL: Bridging Weak and Full Supervision for Forgery Localization through EM-Guided Decomposition and Temporal Refinement

O artigo apresenta o GEM-TFL, um framework de localização de falsificações temporais que supera as limitações da supervisão fraca ao integrar otimização EM para atributos latentes, refinamento temporal sem treinamento e um módulo baseado em grafos, alcançando desempenho próximo ao de métodos totalmente supervisionados.

Xiaodong Zhu, Yuanming Zheng, Suting Wang + 4 more2026-03-06🤖 cs.AI

Diff-ES: Stage-wise Structural Diffusion Pruning via Evolutionary Search

O artigo apresenta o Diff-ES, um framework de poda estrutural para modelos de difusão que utiliza busca evolutiva para otimizar automaticamente agendamentos de esparsidade por estágio e ativação dinâmica de pesos, alcançando aceleração de tempo real e alta qualidade de geração sem a sobrecarga de memória de métodos anteriores.

Zongfang Liu, Shengkun Tang, Zongliang Wu + 2 more2026-03-06💻 cs

← Anterior Próximo →