cs.CV artigos | Gist.Science

FTSplat: Feed-forward Triangle Splatting Network

O artigo apresenta o FTSplat, um modelo de aprendizado profundo feed-forward que gera superfícies triangulares contínuas e prontas para simulação a partir de imagens multiview em uma única passagem, eliminando a necessidade de otimização por cena e superando as limitações de métodos anteriores como NeRF e 3DGS.

Xiong Jinlin, Li Can, Shen Jiawei, Qi Zhigang, Sun Lei, Zhao Dongyang2026-03-09💻 cs

OD-RASE: Ontology-Driven Risk Assessment and Safety Enhancement for Autonomous Driving

O artigo apresenta o OD-RASE, um framework baseado em ontologia e modelos de linguagem visual que identifica proativamente estruturas rodoviárias causadoras de acidentes e gera propostas de melhoria, visando aumentar a segurança e a adoção de sistemas de direção autônoma.

Kota Shimomura, Masaki Nambata, Atsuya Ishikawa, Ryota Mimura, Takayuki Kawabuchi, Takayoshi Yamashita, Koki Inoue2026-03-09💻 cs

Facial Expression Recognition Using Residual Masking Network

Este artigo propõe uma Rede de Mascaramento Residual que combina redes residuais profundas com uma arquitetura do tipo Unet e um mecanismo de atenção para aprimorar o reconhecimento de expressões faciais, alcançando desempenho superior nos conjuntos de dados FER2013 e VEMO.

Luan Pham, The Huynh Vu, Tuan Anh Tran2026-03-09🤖 cs.AI

SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

O artigo apresenta o SLER-IR, um quadro de restauração de imagens "all-in-one" que utiliza roteamento de especialistas em camadas esféricas e uma nova incorporação de degradação uniforme esférica para superar a interferência de características e melhorar a especialização em diversas condições de degradação.

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

Adaptive Radial Projection on Fourier Magnitude Spectrum for Document Image Skew Estimation

Este artigo apresenta um novo método de estimativa de inclinação para documentos digitalizados que utiliza projeção radial adaptativa no espectro de magnitude da Transformada de Fourier, introduz o conjunto de dados DISE-2021 para avaliação e demonstra que a abordagem proposta é robusta e supera os métodos existentes.

Luan Pham, Phu Hao Hoang, Xuan Toan Mai, Tuan Anh Tran2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

O artigo apresenta o LucidNFT, um framework de otimização de preferência baseado em aprendizado por reforço que melhora a super-resolução de imagens do mundo real ao introduzir o avaliador LucidConsistency para garantir fidelidade à entrada de baixa resolução, uma estratégia de normalização de vantagem desacoplada para evitar o colapso de objetivos e o conjunto de dados LucidLR para treinamento robusto.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

O artigo apresenta o E-AdaPrune, um framework de poda adaptativa de tokens visuais para Modelos Visão-Linguagem que, ao determinar o orçamento de tokens com base no espectro de valores singulares das características visuais, preserva a energia espectral para alocar mais recursos a cenas densas em informação e menos a redundantes, melhorando o desempenho sem adicionar parâmetros aprendíveis.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Unify the Views: View-Consistent Prototype Learning for Few-Shot Segmentation

O artigo apresenta o VINE, uma nova rede que unifica a consistência estrutural e a discriminação de foreground por meio de um grafo espacial-visão e de um prior discriminativo para refinar protótipos e melhorar a segmentação com poucos exemplos, especialmente em cenários com variações de viewpoint e estruturas complexas.

Hongli Liu, Yu Wang, Shengjie Zhao2026-03-09💻 cs

OVGGT: O(1) Constant-Cost Streaming Visual Geometry Transformer

O artigo apresenta o OVGGT, uma framework sem treinamento que permite a reconstrução geométrica 3D de vídeos de duração arbitrária com custo e memória constantes, superando as limitações de cache de modelos anteriores através de técnicas de cache seletivo e proteção de âncoras dinâmicas.

Si-Yu Lu, Po-Ting Chen, Hui-Che Hsu, Sin-Ye Jhong, Wen-Huang Cheng, Yung-Yao Chen2026-03-09💻 cs

Exploring Open-Vocabulary Object Recognition in Images using CLIP

Este artigo propõe um novo framework de reconhecimento de objetos com vocabulário aberto baseado em uma estratégia de dois estágios (segmentação e reconhecimento) que elimina a necessidade de retreinamento complexo e, conforme demonstrado em experimentos, alcança o melhor desempenho médio entre os métodos atuais sem utilizar SVD, embora também explore a eficácia de uma abordagem alternativa baseada em CNN/MLP.

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

O artigo apresenta o "Skeleton-to-Image Encoding" (S2I), uma nova representação que transforma sequências de esqueletos 3D em dados semelhantes a imagens, permitindo pela primeira vez o uso de modelos de visão pré-treinados em larga escala para aprendizado de representação auto-supervisionado e unificado de dados esqueléticos heterogêneos.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

O artigo propõe o CR-QAT, um framework de treinamento quântico consciente que combina otimização progressiva por estágios e destilação de conhecimento relacional baseada em texto para mitigar a degradação de alinhamento visão-linguagem em detecção de objetos de vocabulário aberto sob quantização extrema de baixo bit, permitindo a implantação eficiente em dispositivos com recursos limitados.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

O artigo apresenta o PROBE, um descritor de reconhecimento de lugar para LiDAR sem aprendizado que utiliza codificação de ocupação probabilística em visão de pássaro (BEV) e marginalização analítica de incertezas de translação para alcançar alta precisão e generalização entre diferentes sensores sem necessidade de ajuste por conjunto de dados.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Imagine How To Change: Explicit Procedure Modeling for Change Captioning

O artigo apresenta o ProCap, um novo framework que reformula a legendagem de mudanças ao modelar dinamicamente o procedimento de transformação entre imagens, utilizando um codificador treinado em quadros-chave e consultas aprendíveis para gerar descrições textuais que explicam não apenas o que mudou, mas também como ocorreu.

Jiayang Sun, Zixin Guo, Min Cao, Guibo Zhu, Jorma Laaksonen2026-03-09🤖 cs.AI

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Este artigo apresenta o DynUAV, um novo benchmark desafiador para rastreamento de múltiplos objetos em vídeos de drones, caracterizado por movimentos ágeis, mudanças drásticas de escala e desfoque de movimento, visando superar as limitações dos conjuntos de dados existentes e impulsionar o desenvolvimento de algoritmos mais robustos para cenários reais.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Este artigo apresenta um novo framework de colorização de esboços de alta resolução que supera o problema de deslocamento de distribuição entre dados de treinamento e inferência, utilizando uma arquitetura de duas ramificações com regularização Gram e um módulo específico para animes, alcançando desempenho superior em qualidade e controle.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

HarvestFlex: Strawberry Harvesting via Vision-Language-Action Policy Adaptation in the Wild

Este trabalho apresenta o primeiro estudo de transferência de políticas Visão-Linguagem-Ação para a colheita real de morangos em estufas, demonstrando que um sistema de malha fechada com três câmeras RGB e apenas 3,71 horas de dados teleoperados alcançou uma taxa de sucesso de 74,0% com o modelo pi_0.5 totalmente ajustado.

Ziyang Zhao, Shuheng Wang, Zhonghua Miao, Ya Xiong2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Este relatório técnico descreve o desenvolvimento de um sistema de Inspeção Óptica Automatizada (AOI) baseado em arquiteturas de aprendizado profundo (YOLOv8, ResNet-152 e EfficientNet-b4) para detectar defeitos em instrumentos cirúrgicos fabricados no Paquistão, utilizando um conjunto de dados de 4.414 imagens e parcerias industriais para garantir a segurança do paciente e a qualidade do produto.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

O artigo apresenta o MM-ISTS, um framework multimodal que utiliza modelos de linguagem grandes (LLMs) de visão e texto para aprimorar a previsão de séries temporais amostradas irregularmente, integrando dados temporais, visuais e textuais por meio de um mecanismo de codificação em duas etapas e um módulo de alinhamento adaptativo para capturar padrões temporais complexos e contexto semântico.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI

RePer-360: Releasing Perspective Priors for 360 $^\circ$ Depth Estimation via Self-Modulation

O artigo apresenta o RePer-360, um framework de auto-modulação que adapta modelos de profundidade pré-treinados em imagens perspetivas para estimativa de profundidade em panorâmicas de 360°, preservando os conhecimentos pré-treinados e alcançando desempenho superior com apenas 1% dos dados de treino.

Cheng Guan, Chunyu Lin, Zhijie Shen, Junsong Zhang, Jiyuan Wang2026-03-09💻 cs

← Anterior Próximo →

cs.CV