cs.CV artigos | Gist.Science

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

O artigo propõe o SpHOR, uma abordagem de aprendizado de representação supervisionada que, ao empregar embeddings de rótulos ortogonais, restrições esféricas e técnicas de regularização como Mixup e Label Smoothing, melhora significativamente a separabilidade angular e de norma para alcançar resultados de ponta na Reconhecimento de Conjunto Aberto (OSR).

Nadarasar Bahavan, Sachith Seneviratne, Saman Halgamuge2026-02-24💻 cs

PSGait: Gait Recognition using Parsing Skeleton

O artigo apresenta o PSGait, um framework inovador que combina silhuetas com uma nova representação chamada "Parsing Skeleton" para melhorar a precisão e a generalização do reconhecimento de marcha em cenários reais, superando os métodos atuais com menor custo computacional.

Hangrui Xu, Zhengxian Wu, Chuanrui Zhang + 4 more2026-02-24💻 cs

VideoMind: A Chain-of-LoRA Agent for Temporal-Grounded Video Reasoning

O artigo apresenta o VideoMind, um agente de vídeo-linguagem inovador que utiliza um fluxo de trabalho baseado em papéis coordenado por um mecanismo Chain-of-LoRA para realizar raciocínio temporal fundamentado com alta eficiência e flexibilidade em diversas tarefas de compreensão de vídeo.

Ye Liu, Kevin Qinghong Lin, Chang Wen Chen + 1 more2026-02-24🤖 cs.AI

ShapeShift: Text-to-Mosaic Synthesis via Semantic Phase-Field Guidance

O artigo apresenta o ShapeShift, um método que utiliza um campo de fase deformável guiado por características de modelos de difusão para organizar objetos rígidos em configurações semanticamente coerentes e livres de sobreposições, resolvendo o conflito entre validade física e clareza conceitual.

Vihaan Misra, Peter Schaldenbrand, Jean Oh2026-02-24💻 cs

Can Vision-Language Models Answer Face to Face Questions in the Real-World?

Este trabalho apresenta o novo conjunto de dados e benchmark Qualcomm Interactive Video Dataset (IVD) para avaliar a capacidade de modelos de visão e linguagem de responder a perguntas em tempo real sobre cenas do mundo vivo, demonstrando que, embora os modelos atuais fiquem muito aquém do desempenho humano, o ajuste fino com esses dados pode reduzir significativamente essa lacuna em diversas habilidades perceptivas.

Reza Pourreza, Rishit Dagli, Apratim Bhattacharyya + 3 more2026-02-24💻 cs

Learn by Reasoning: Analogical Weight Generation for Few-Shot Class-Incremental Learning

Este artigo propõe um novo método de geração de pesos analógicos inspirado no cérebro humano, denominado BiAG, que utiliza atenção de auto-peso, analogia entre pesos e protótipos, e conversão semântica baseada na teoria do Colapso Neural para gerar pesos de novas classes em cenários de Aprendizado Incremental de Classe com Poucos Exemplos (FSCIL) sem ajuste fino de parâmetros, alcançando desempenho superior ao estado da arte em diversos conjuntos de dados.

Jizhou Han, Chenhao Ding, Yuhang He + 4 more2026-02-24🤖 cs.AI

JavisDiT: Joint Audio-Video Diffusion Transformer with Hierarchical Spatio-Temporal Prior Synchronization

O artigo apresenta o JavisDiT, um novo modelo Transformer de difusão que gera áudio e vídeo sincronizados a partir de prompts de texto, utilizando um mecanismo de prioridade hierárquica para alinhamento e um novo benchmark para avaliação de sincronia.

Kai Liu, Wei Li, Lai Chen + 8 more2026-02-24⚡ eess

Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions

O artigo apresenta o STEP, um método de sonda leve e eficiente que supera técnicas de ajuste fino tradicionais ao modelar a ordem temporal das imagens para reconhecer ações quase simétricas em interações humano-robô, estabelecendo um novo estado da arte com menor custo computacional.

Thinesh Thiyakesan Ponbagavathi, Alina Roitberg2026-02-24💻 cs

Noise-Aware Generalization: Robustness to In-Domain Noise and Out-of-Domain Generalization

O artigo propõe o método DL4ND, a primeira abordagem direta para a Generalização Consciente de Ruído (NAG), que supera as limitações de métodos existentes ao utilizar rótulos de domínio para detectar ruído com base na variação amostral entre domínios, alcançando ganhos de desempenho significativos em diversos cenários.

Siqi Wang, Aoming Liu, Bryan A. Plummer2026-02-24🤖 cs.LG

nnLandmark: A Self-Configuring Method for 3D Medical Landmark Detection

O artigo apresenta o nnLandmark, um framework autoconfigurável para detecção de marcos anatômicos em 3D que combina componentes do nnU-Net para alcançar desempenho de ponta, facilitar o treinamento sem necessidade de ajuste manual de hiperparâmetros e estabelecer um padrão unificado para avaliação e comparação de métodos na área médica.

Alexandra Ertl, Stefan Denner, Robin Peretzke + 8 more2026-02-24💻 cs

Not All Pixels Are Equal: Confidence-Guided Attention for Feature Matching

Este artigo propõe um mecanismo de atenção guiada por confiança que aprimora o casamento de características semi-densas ao adaptar dinamicamente os pesos de atenção e as características de valor com base em mapas de confiança, eliminando assim ruídos de regiões irrelevantes e superando os métodos mais avançados existentes.

Dongyue Li2026-02-24💻 cs

GRILL: Restoring Gradient Signal in Ill-Conditioned Layers for More Effective Adversarial Attacks on Autoencoders

O artigo apresenta o GRILL, uma técnica que restaura os sinais de gradiente em camadas mal condicionadas de autoencodificadores, permitindo ataques adversariais mais eficazes e uma avaliação mais rigorosa da robustez desses modelos e de arquiteturas multimodais similares.

Chethan Krishnamurthy Ramanaik, Arjun Roy, Tobias Callies + 1 more2026-02-24🤖 cs.AI

Feature Representation Transferring to Lightweight Models via Perception Coherence

Este artigo propõe um método de transferência de representação de recursos para modelos leves baseado no conceito de "coerência de percepção", que utiliza um novo função de perda probabilística para alinhar as classificações de dissimilaridade dos dados entre o professor e o aluno, permitindo que o modelo menor aprenda a percepção global do professor sem precisar preservar sua geometria absoluta.

Hai-Vy Nguyen, Fabrice Gamboa, Sixin Zhang + 3 more2026-02-24📊 stat

U2-BENCH: Benchmarking Large Vision-Language Models on Ultrasound Understanding

O artigo apresenta o U2-BENCH, o primeiro benchmark abrangente para avaliar modelos de linguagem e visão grandes (LVLMs) na compreensão de imagens de ultrassom, revelando que, embora esses modelos tenham bom desempenho em classificação de imagens, ainda enfrentam desafios significativos em raciocínio espacial e geração de linguagem clínica.

Anjie Le, Henan Liu, Yue Wang + 18 more2026-02-24🤖 cs.LG

Inverse Virtual Try-On: Generating Multi-Category Product-Style Images from Clothed Individuals

O artigo apresenta o TEMU-VTOFF, um novo framework baseado em DiT que utiliza informações multimodais (imagem, texto e máscara) para superar as limitações de ambiguidade e perda de detalhes nos métodos existentes, gerando imagens padronizadas de produtos de vestuário a partir de fotos de pessoas vestidas com alta fidelidade e realismo.

Davide Lobba, Fulvio Sanguigni, Bin Ren + 3 more2026-02-24💻 cs

Fine-Grained Motion Compression and Selective Temporal Fusion for Neural B-Frame Video Coding

Este artigo propõe um novo codec de vídeo neural para quadros B que introduz compressão de movimento de alta granularidade e fusão temporal seletiva, alcançando reduções significativas na taxa de bits em comparação com métodos anteriores e desempenho competitivo em relação ao padrão H.266/VVC.

Xihua Sheng, Peilin Chen, Meng Wang + 3 more2026-02-24⚡ eess

Perception Characteristics Distance: Measuring Stability and Robustness of Perception System in Dynamic Conditions under a Certain Decision Rule

Este artigo apresenta a Distância de Características de Percepção (PCD), uma nova métrica que incorpora a incerteza dos modelos para avaliar a estabilidade e robustez de sistemas de direção autônoma em condições dinâmicas, validada através do novo conjunto de dados SensorRainFall que demonstra a superioridade da métrica sobre os métodos tradicionais em diferentes cenários climáticos e de iluminação.

Boyu Jiang, Liang Shi, Zhengzhi Lin + 3 more2026-02-24📊 stat

See-in-Pairs: Reference Image-Guided Comparative Vision-Language Models for Medical Diagnosis

Este trabalho demonstra que a incorporação de imagens de referência saudáveis e prompts comparativos em modelos de visão e linguagem médica, potencializada por um ajuste fino supervisionado leve, melhora significativamente o desempenho diagnóstico ao alinhar melhor as representações visuais e textuais e aumentar a eficiência amostral.

Ruinan Jin, Gexin Huang, Xinwei Shen + 3 more2026-02-24💻 cs

Modulate and Reconstruct: Learning Hyperspectral Imaging from Misaligned Smartphone Views

Este trabalho propõe um novo framework de reconstrução hiperespectral a partir de múltiplas imagens (MI-HSR) que utiliza um sistema de três câmeras de smartphone com filtros espectrais e um módulo de alinhamento leve para superar as limitações de abordagens de imagem única, resultando em estimativas espectrais 30% mais precisas e um aumento de 5% na qualidade de reconstrução, apoiado pelo lançamento do primeiro dataset específico para essa tarefa.

Daniil Reutsky, Daniil Vladimirov, Yasin Mamedov + 4 more2026-02-24💻 cs

Exploring Partial Multi-Label Learning via Integrating Semantic Co-occurrence Knowledge

Este artigo apresenta o SCINet, uma nova estrutura para aprendizado multirrotulado parcial que supera os métodos mais recentes ao integrar conhecimento semântico de co-ocorrência por meio de um prompter bi-dominante, um módulo de fusão cruzada e uma estratégia de aumento semântico intrínseco para lidar eficazmente com dados incompletamente anotados.

Xin Wu, Fei Teng, Yue Feng + 4 more2026-02-24🤖 cs.AI

← Anterior Próximo →