SLER-IR: Spherical Layer-wise Expert Routing for All-in-One Image Restoration

O artigo apresenta o SLER-IR, um quadro de restauração de imagens "all-in-one" que utiliza roteamento de especialistas em camadas esféricas e uma nova incorporação de degradação uniforme esférica para superar a interferência de características e melhorar a especialização em diversas condições de degradação.

Peng Shurui, Xin Lin, Shi Luo, Jincen Ou, Dizhe Zhang, Lu Qi, Truong Nguyen, Chao Ren2026-03-09💻 cs

LucidNFT: LR-Anchored Multi-Reward Preference Optimization for Generative Real-World Super-Resolution

O artigo apresenta o LucidNFT, um framework de otimização de preferência baseado em aprendizado por reforço que melhora a super-resolução de imagens do mundo real ao introduzir o avaliador LucidConsistency para garantir fidelidade à entrada de baixa resolução, uma estratégia de normalização de vantagem desacoplada para evitar o colapso de objetivos e o conjunto de dados LucidLR para treinamento robusto.

Song Fei, Tian Ye, Sixiang Chen, Zhaohu Xing, Jianyu Lai, Lei Zhu2026-03-09💻 cs

Energy-Driven Adaptive Visual Token Pruning for Efficient Vision-Language Models

O artigo apresenta o E-AdaPrune, um framework de poda adaptativa de tokens visuais para Modelos Visão-Linguagem que, ao determinar o orçamento de tokens com base no espectro de valores singulares das características visuais, preserva a energia espectral para alocar mais recursos a cenas densas em informação e menos a redundantes, melhorando o desempenho sem adicionar parâmetros aprendíveis.

Jialuo He, Huangxun Chen2026-03-09🤖 cs.AI

Exploring Open-Vocabulary Object Recognition in Images using CLIP

Este artigo propõe um novo framework de reconhecimento de objetos com vocabulário aberto baseado em uma estratégia de dois estágios (segmentação e reconhecimento) que elimina a necessidade de retreinamento complexo e, conforme demonstrado em experimentos, alcança o melhor desempenho médio entre os métodos atuais sem utilizar SVD, embora também explore a eficácia de uma abordagem alternativa baseada em CNN/MLP.

Wei Yu Chen, Ying Dai2026-03-09💻 cs

Skeleton-to-Image Encoding: Enabling Skeleton Representation Learning via Vision-Pretrained Models

O artigo apresenta o "Skeleton-to-Image Encoding" (S2I), uma nova representação que transforma sequências de esqueletos 3D em dados semelhantes a imagens, permitindo pela primeira vez o uso de modelos de visão pré-treinados em larga escala para aprendizado de representação auto-supervisionado e unificado de dados esqueléticos heterogêneos.

Siyuan Yang, Jun Liu, Hao Cheng, Chong Wang, Shijian Lu, Hedvig Kjellstrom, Weisi Lin, Alex C. Kot2026-03-09🤖 cs.AI

CR-QAT: Curriculum Relational Quantization-Aware Training for Open-Vocabulary Object Detection

O artigo propõe o CR-QAT, um framework de treinamento quântico consciente que combina otimização progressiva por estágios e destilação de conhecimento relacional baseada em texto para mitigar a degradação de alinhamento visão-linguagem em detecção de objetos de vocabulário aberto sob quantização extrema de baixo bit, permitindo a implantação eficiente em dispositivos com recursos limitados.

Jinyeong Park, Donghwa Kim, Brent ByungHoon Kang, Hyeongboo Baek, Jibum Kim2026-03-09💻 cs

PROBE: Probabilistic Occupancy BEV Encoding with Analytical Translation Robustness for 3D Place Recognition

O artigo apresenta o PROBE, um descritor de reconhecimento de lugar para LiDAR sem aprendizado que utiliza codificação de ocupação probabilística em visão de pássaro (BEV) e marginalização analítica de incertezas de translação para alcançar alta precisão e generalização entre diferentes sensores sem necessidade de ajuste por conjunto de dados.

Jinseop Lee, Byoungho Lee, Gichul Yoo2026-03-09💻 cs

Breaking Smooth-Motion Assumptions: A UAV Benchmark for Multi-Object Tracking in Complex and Adverse Conditions

Este artigo apresenta o DynUAV, um novo benchmark desafiador para rastreamento de múltiplos objetos em vídeos de drones, caracterizado por movimentos ágeis, mudanças drásticas de escala e desfoque de movimento, visando superar as limitações dos conjuntos de dados existentes e impulsionar o desenvolvimento de algoritmos mais robustos para cenários reais.

Jingtao Ye, Kexin Zhang, Xunchi Ma, Yuehan Li, Guangming Zhu, Peiyi Shen, Linhua Jiang, Xiangdong Zhang, Liang Zhang2026-03-09💻 cs

Towards High-resolution and Disentangled Reference-based Sketch Colorization

Este artigo apresenta um novo framework de colorização de esboços de alta resolução que supera o problema de deslocamento de distribuição entre dados de treinamento e inferência, utilizando uma arquitetura de duas ramificações com regularização Gram e um módulo específico para animes, alcançando desempenho superior em qualidade e controle.

Dingkun Yan, Xinrui Wang, Ru Wang, Zhuoru Li, Jinze Yu, Yusuke Iwasawa, Yutaka Matsuo, Jiaxian Guo2026-03-09💻 cs

Technical Report: Automated Optical Inspection of Surgical Instruments

Este relatório técnico descreve o desenvolvimento de um sistema de Inspeção Óptica Automatizada (AOI) baseado em arquiteturas de aprendizado profundo (YOLOv8, ResNet-152 e EfficientNet-b4) para detectar defeitos em instrumentos cirúrgicos fabricados no Paquistão, utilizando um conjunto de dados de 4.414 imagens e parcerias industriais para garantir a segurança do paciente e a qualidade do produto.

Zunaira Shafqat, Atif Aftab Ahmed Jilani, Qurrat Ul Ain2026-03-09🤖 cs.AI

MM-ISTS: Cooperating Irregularly Sampled Time Series Forecasting with Multimodal Vision-Text LLMs

O artigo apresenta o MM-ISTS, um framework multimodal que utiliza modelos de linguagem grandes (LLMs) de visão e texto para aprimorar a previsão de séries temporais amostradas irregularmente, integrando dados temporais, visuais e textuais por meio de um mecanismo de codificação em duas etapas e um módulo de alinhamento adaptativo para capturar padrões temporais complexos e contexto semântico.

Zhi Lei, Chenxi Liu, Hao Miao, Wanghui Qiu, Bin Yang, Chenjuan Guo2026-03-09🤖 cs.AI