cs.CV artigos | Gist.Science

Global Commander and Local Operative: A Dual-Agent Framework for Scene Navigation

O artigo apresenta o DACo, um framework de agentes duplos que desacopla o planejamento global da execução local para superar as limitações de navegação em ambientes complexos, alcançando desempenho superior e generalização em tarefas de navegação visão-linguagem de longo alcance.

Kaiming Jin, Yuefan Wu, Shengqiong Wu + 3 more2026-02-24💻 cs

Depth-Enhanced YOLO-SAM2 Detection for Reliable Ballast Insufficiency Identification

Este artigo apresenta um framework aprimorado com profundidade, combinando YOLOv8 e SAM2 com correção geométrica de dados RGB-D, que aumenta significativamente a precisão e o recall na detecção de insuficiência de lastro ferroviário, superando as limitações dos modelos baseados apenas em imagens RGB.

Shiyu Liu, Dylan Lester, Husnu Narman + 2 more2026-02-24⚡ eess

Face Presentation Attack Detection via Content-Adaptive Spatial Operators

Este artigo apresenta o CASO-PAD, um modelo leve e baseado apenas em RGB para detecção de ataques de apresentação facial que utiliza operadores espaciais adaptativos ao conteúdo (involution) para capturar eficazmente pistas de falsificação localizadas, alcançando desempenho robusto em múltiplos benchmarks sem a necessidade de sensores auxiliares ou pilhas temporais.

Shujaat Khan2026-02-24⚡ eess

Frame2Freq: Spectral Adapters for Fine-Grained Video Understanding

O artigo apresenta o Frame2Freq, uma família de adaptadores que utilizam codificação espectral via Transformada Rápida de Fourier para capturar dinâmicas temporais em múltiplas escalas, superando métodos anteriores na reconhecimento de ações visuais finas ao adaptar modelos de visão pré-treinados para vídeo.

Thinesh Thiyakesan Ponbagavathi, Constantin Seibold, Alina Roitberg2026-02-24💻 cs

A Benchmark and Knowledge-Grounded Framework for Advanced Multimodal Personalization Study

Este trabalho apresenta o Life-Bench, um benchmark abrangente baseado em pegadas digitais simuladas, e o LifeGraph, um framework baseado em grafos de conhecimento, para avaliar e melhorar a personalização multimodal avançada em modelos de linguagem visuais, destacando as limitações atuais e a necessidade de raciocínio relacional e temporal mais sofisticado.

Xia Hu, Honglei Zhuang, Brian Potetz + 4 more2026-02-24💻 cs

MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment

O artigo apresenta o MoBind, um framework hierárquico de aprendizado contrastivo que alinha sinais de IMU com sequências de pose 2D para permitir recuperação cruzada precisa, sincronização temporal, localização de sujeitos e partes do corpo, e reconhecimento de ações, superando métodos existentes em diversos conjuntos de dados.

Duc Duy Nguyen, Tat-Jun Chin, Minh Hoai2026-02-24💻 cs

GUIDE-US: Grade-Informed Unpaired Distillation of Encoder Knowledge from Histopathology to Micro-UltraSound

O artigo apresenta o GUIDE-US, um método de destilação de conhecimento não pareada que treina um codificador de micro-ultrassom para imitar a distribuição de embeddings de um modelo fundacional de histopatologia, permitindo a classificação não invasiva do câncer de próstata com maior sensibilidade e sem a necessidade de emparelhamento de imagens ou dados histológicos durante a inferência.

Emma Willis, Tarek Elghareb, Paul F. R. Wilson + 6 more2026-02-24🤖 cs.LG

TokenTrace: Multi-Concept Attribution through Watermarked Token Recovery

O artigo apresenta o TokenTrace, um novo framework de marcação d'água proativa que permite a atribuição robusta e independente de múltiplos conceitos (como objetos e estilos artísticos) em imagens geradas por IA, superando métodos existentes ao dissecar e verificar cada conceito individualmente sem comprometer a qualidade visual.

Li Zhang, Shruti Agarwal, John Collomosse + 2 more2026-02-24💻 cs

An interpretable framework using foundation models for fish sex identification

O artigo apresenta o FishProtoNet, um framework não invasivo e interpretável baseado em modelos de fundação e redes de protótipos para a identificação do sexo do peixe delta smelt em risco de extinção, demonstrando alta precisão nas fases de desova e pós-desova, embora ainda enfrente desafios na fase subadulta devido às menores diferenças morfológicas.

Zheng Miao, Tien-Chieh Hung2026-02-24🤖 cs.AI

Towards Calibrating Prompt Tuning of Vision-Language Models

Este artigo propõe um novo framework de calibração para o ajuste de prompts em modelos de visão e linguagem, como o CLIP, que utiliza regularizadores de margem e correspondência de momentos para melhorar a confiabilidade das previsões e reduzir o erro de calibração sem comprometer a generalização do modelo.

Ashshak Sharifdeen, Fahad Shamshad, Muhammad Akhtar Munir + 6 more2026-02-24💻 cs

A Markovian View of Iterative-Feedback Loops in Image Generative Models: Neural Resonance and Model Collapse

Este artigo propõe que o colapso de modelos em loops de feedback iterativo resulta de um fenômeno chamado ressonância neural, onde a ergodicidade e a contração direcional no espaço latente levam a uma estrutura invariante de baixa dimensão, oferecendo uma explicação unificada e uma taxonomia para diagnosticar e mitigar essa degeneração.

Vibhas Kumar Vats, David J. Crandall, Samuel Goree2026-02-24🤖 cs.LG

OpenVO: Open-World Visual Odometry with Temporal Dynamics Awareness

O artigo apresenta o OpenVO, um novo framework de odometria visual para mundos abertos que supera as limitações de métodos existentes ao estimar o movimento egoísta em escala real a partir de vídeos monoculares não calibrados com taxas de observação variáveis, utilizando dinâmicas temporais e priores geométricos 3D para alcançar melhorias significativas de desempenho em benchmarks de condução autônoma.

Phuc D. A. Nguyen, Anh N. Nhu, Ming C. Lin2026-02-24💻 cs

Direction-aware 3D Large Multimodal Models

Este trabalho redefine o paradigma dos modelos multimodais 3D grandes (3D LMMs) ao introduzir o pipeline automático PoseRecover para recuperar poses egocêntricas e a técnica PoseAlign para alinhar dados de nuvem de pontos, resultando em melhorias significativas e eficientes na capacidade de raciocínio espacial e resposta a perguntas direcionais em diversos benchmarks e arquiteturas existentes.

Quan Liu, Weihao Xuan, Junjue Wang + 3 more2026-02-24💻 cs

L3DR: 3D-aware LiDAR Diffusion and Rectification

O artigo apresenta o L3DR, um framework de difusão e retificação de LiDAR consciente de 3D que corrige artefatos de visão de alcance e restaura a geometria local com precisão, superando os modelos 2D tradicionais e alcançando resultados de ponta em diversos conjuntos de dados.

Quan Liu, Xiaoqin Zhang, Ling Shao + 1 more2026-02-24💻 cs

Restoration-Guided Kuzushiji Character Recognition Framework under Seal Interference

Este artigo propõe a RG-KCR, uma estrutura de três etapas que combina detecção, restauração de imagem para remover interferências de selos e classificação para melhorar a precisão do reconhecimento de caracteres Kuzushiji em documentos históricos japoneses.

Rui-Yang Ju, Kohei Yamashita, Hirotaka Kameko + 1 more2026-02-24💻 cs

Ani3DHuman: Photorealistic 3D Human Animation with Self-guided Stochastic Sampling

O Ani3DHuman é um framework inovador que combina animação baseada em cinemática com priores de difusão de vídeo e uma nova amostragem estocástica auto-guiada para superar limitações de realismo e perda de identidade, gerando animações 3D humanas fotorrealistas com dinâmicas não rígidas precisas.

Qi Sun, Can Wang, Jiaxiang Shang + 2 more2026-02-24🤖 cs.LG

CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension

O artigo apresenta o CREM, um modelo unificado que utiliza uma estratégia de compressão e tokens corais aprendíveis para aprimorar a representação multimodal em tarefas de recuperação, mantendo simultaneamente a capacidade generativa do modelo.

Lihao Liu, Yan Wang, Biao Yang + 10 more2026-02-24💻 cs

Mapping Networks

O artigo apresenta as "Mapping Networks", uma abordagem que substitui o espaço de pesos de alta dimensão por um vetor latente compacto e treinável, reduzindo drasticamente o número de parâmetros em cerca de 500 vezes enquanto mantém ou melhora o desempenho e combate o sobreajuste em diversas tarefas complexas.

Lord Sen, Shyamapada Mukherjee2026-02-24💻 cs

CaReFlow: Cyclic Adaptive Rectified Flow for Multimodal Fusion

O CaReFlow é um método inovador que utiliza um fluxo retificado cíclico adaptativo para reduzir a lacuna entre modalidades através de um mapeamento de distribuição de um-para-muitos e alinhamento relaxado, permitindo uma fusão multimodal mais robusta e eficaz em tarefas de computação afetiva.

Sijie Mai, Shiqin Han2026-02-24🤖 cs.LG

Artefact-Aware Fungal Detection in Dermatophytosis: A Real-Time Transformer-Based Approach for KOH Microscopy

Este estudo apresenta um sistema de detecção de dermatofitose em tempo real baseado no modelo Transformer RT-DETR, que alcança alta precisão e sensibilidade na identificação de hifas fúngicas em microscopia KOH, superando desafios como artefatos e variabilidade interobservador para servir como uma ferramenta de triagem automatizada confiável.

Rana Gursoy, Abdurrahim Yilmaz, Baris Kizilyaprak + 5 more2026-02-24🤖 cs.AI

← Anterior Próximo →