SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

O artigo propõe o SpHOR, uma abordagem de aprendizado de representação supervisionada que, ao empregar embeddings de rótulos ortogonais, restrições esféricas e técnicas de regularização como Mixup e Label Smoothing, melhora significativamente a separabilidade angular e de norma para alcançar resultados de ponta na Reconhecimento de Conjunto Aberto (OSR).

Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge2026-02-24💻 cs

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Este trabalho apresenta o novo conjunto de dados e benchmark Qualcomm Interactive Video Dataset (IVD) para avaliar a capacidade de modelos de visão e linguagem de responder a perguntas em tempo real sobre cenas do mundo vivo, demonstrando que, embora os modelos atuais fiquem muito aquém do desempenho humano, o ajuste fino com esses dados pode reduzir significativamente essa lacuna em diversas habilidades perceptivas.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Este artigo propõe um novo método de geração de pesos analógicos inspirado no cérebro humano, denominado BiAG, que utiliza atenção de auto-peso, analogia entre pesos e protótipos, e conversão semântica baseada na teoria do Colapso Neural para gerar pesos de novas classes em cenários de Aprendizado Incremental de Classe com Poucos Exemplos (FSCIL) sem ajuste fino de parâmetros, alcançando desempenho superior ao estado da arte em diversos conjuntos de dados.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

Feature Representation Transferring to Lightweight Models via Perception Coherence

Este artigo propõe um método de transferência de representação de recursos para modelos leves baseado no conceito de "coerência de percepção", que utiliza um novo função de perda probabilística para alinhar as classificações de dissimilaridade dos dados entre o professor e o aluno, permitindo que o modelo menor aprenda a percepção global do professor sem precisar preservar sua geometria absoluta.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

O artigo apresenta o TEMU-VTOFF, um novo framework baseado em DiT que utiliza informações multimodais (imagem, texto e máscara) para superar as limitações de ambiguidade e perda de detalhes nos métodos existentes, gerando imagens padronizadas de produtos de vestuário a partir de fotos de pessoas vestidas com alta fidelidade e realismo.

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Este artigo apresenta a Distância de Características de Percepção (PCD), uma nova métrica que incorpora a incerteza dos modelos para avaliar a estabilidade e robustez de sistemas de direção autônoma em condições dinâmicas, validada através do novo conjunto de dados SensorRainFall que demonstra a superioridade da métrica sobre os métodos tradicionais em diferentes cenários climáticos e de iluminação.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis

Este trabalho demonstra que a incorporação de imagens de referência saudáveis e prompts comparativos em modelos de visão e linguagem médica, potencializada por um ajuste fino supervisionado leve, melhora significativamente o desempenho diagnóstico ao alinhar melhor as representações visuais e textuais e aumentar a eficiência amostral.

Ruinan Jin, Gexin Huang, Xinwei Shen + 3 more2026-02-24💻 cs

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Este trabalho propõe um novo framework de reconstrução hiperespectral a partir de múltiplas imagens (MI-HSR) que utiliza um sistema de três câmeras de smartphone com filtros espectrais e um módulo de alinhamento leve para superar as limitações de abordagens de imagem única, resultando em estimativas espectrais 30% mais precisas e um aumento de 5% na qualidade de reconstrução, apoiado pelo lançamento do primeiro dataset específico para essa tarefa.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge

Este artigo apresenta o SCINet, uma nova estrutura para aprendizado multirrotulado parcial que supera os métodos mais recentes ao integrar conhecimento semântico de co-ocorrência por meio de um prompter bi-dominante, um módulo de fusão cruzada e uma estratégia de aumento semântico intrínseco para lidar eficazmente com dados incompletamente anotados.

Xin Wu, Fei Teng, Yue Feng + 4 more2026-02-24🤖 cs.AI