cs.CV artigos | Gist.Science

US-JEPA: A Joint Embedding Predictive Architecture for Medical Ultrasound

O artigo apresenta o US-JEPA, uma arquitetura de aprendizado auto-supervisionado que utiliza um objetivo de treinamento assimétrico com professor estático (SALT) para superar os desafios de ruído na imagem ultrassonográfica, demonstrando desempenho competitivo em comparação com modelos de fundação existentes no benchmark UltraBench.

Ashwath Radhachandran, Vedrana Ivezić, Shreeram Athreya + 3 more2026-02-24🤖 cs.LG

DefenseSplat: Enhancing the Robustness of 3D Gaussian Splatting via Frequency-Aware Filtering

O artigo "DefenseSplat" propõe uma estratégia de defesa baseada em filtragem sensível à frequência que, ao analisar e remover ruídos de alta frequência das imagens de entrada, aumenta significativamente a robustez do 3D Gaussian Splatting contra ataques adversariais sem comprometer o desempenho em dados limpos.

Yiran Qiao, Yiren Lu, Yunlai Zhou + 4 more2026-02-24💻 cs

RetinaVision: XAI-Driven Augmented Regulation for Precise Retinal Disease Classification using deep learning framework

O estudo apresenta o RetinaVision, um sistema baseado em aprendizado profundo que utiliza a arquitetura Xception e técnicas de explicabilidade (XAI) para classificar com alta precisão (95,25%) doenças retinianas em imagens OCT, integrando essas capacidades em uma aplicação web para auxiliar no diagnóstico clínico.

Mohammad Tahmid Noor, Shayan Abrar, Jannatul Adan Mahi + 3 more2026-02-24🤖 cs.AI

MultiDiffSense: Diffusion-Based Multi-Modal Visuo-Tactile Image Generation Conditioned on Object Shape and Contact Pose

O artigo apresenta o MultiDiffSense, um modelo de difusão unificado que gera imagens visuo-táteis sintéticas e alinhadas para múltiplos sensores, condicionadas à forma do objeto e à pose de contato, superando métodos anteriores e reduzindo a necessidade de coleta de dados reais para aplicações robóticas.

Sirine Bhouri, Lan Wei, Jian-Qing Zheng + 1 more2026-02-24🤖 cs.AI

UP-Fuse: Uncertainty-guided LiDAR-Camera Fusion for 3D Panoptic Segmentation

O artigo apresenta o UP-Fuse, um novo framework de fusão LiDAR-câmera guiado por incerteza no espaço de visão de alcance que mantém a robustez na segmentação panóptica 3D mesmo sob degradação, descalibração ou falha dos sensores de câmera.

Rohit Mohan, Florian Drews, Yakov Miron + 2 more2026-02-24🤖 cs.AI

PoseCraft: Tokenized 3D Body Landmark and Camera Conditioning for Photorealistic Human Image Synthesis

O artigo apresenta o PoseCraft, um framework de difusão que utiliza tokens discretos para codificar marcos 3D e parâmetros de câmera, permitindo a síntese de avatares humanos fotorealistas com controle preciso de pose e viewpoint, superando as limitações de métodos existentes ao preservar detalhes de identidade e textura sem a necessidade de re-otimização para cada nova pose.

Zhilin Guo, Jing Yang, Kyle Fogarty + 9 more2026-02-24💻 cs

MentalBlackboard: Evaluating Spatial Visualization via Mathematical Transformations

O artigo apresenta o MentalBlackboard, um novo benchmark para avaliar a visualização espacial em modelos de linguagem e visão através de tarefas de doação de papel e perfuração, revelando que, apesar de alguns modelos alcançarem desempenho moderado em tarefas de generalização, eles ainda enfrentam dificuldades significativas na aplicação de transformações simétricas e no planejamento de etapas espaciais.

Nilay Yilmaz, Maitreya Patel, Naga Sai Abhiram Kusumba + 2 more2026-02-24🤖 cs.LG

Referring Layer Decomposition

Este trabalho apresenta a tarefa de Decomposição de Camadas de Referência (RLD) e o conjunto de dados RefLade, que permitem a geração precisa de camadas RGBA a partir de uma única imagem e prompts flexíveis, superando as limitações das abordagens holísticas atuais para edição de imagens e geração composicional.

Fangyi Chen, Yaojie Shen, Lu Xu + 4 more2026-02-24💻 cs

Time Series, Vision, and Language: Exploring the Limits of Alignment in Contrastive Representation Spaces

Este artigo investiga a Hipótese da Representação Platônica em um cenário trimodal, revelando que, embora o alinhamento contrastivo entre séries temporais, visão e linguagem melhore com o aumento do modelo, ele é assimétrico (com séries temporais alinhando-se melhor à visão do que ao texto) e saturado pela densidade da informação, sugerindo que as imagens podem atuar como intermediárias eficazes entre séries temporais e linguagem.

Pratham Yashwante, Rose Yu2026-02-24🤖 cs.AI

Seeing Farther and Smarter: Value-Guided Multi-Path Reflection for VLM Policy Optimization

Este artigo propõe um novo framework de computação em tempo de teste para otimização de políticas em Modelos Visão-Linguagem (VLMs) que, ao desacoplar a avaliação de estado da geração de ações, utilizar busca em feixe para refletir sobre múltiplos futuros e empregar um gatilho leve baseado em confiança, alcança uma melhoria de 24,6% na taxa de sucesso e uma redução de 56,5% no tempo de inferência em tarefas complexas de manipulação robótica.

Yanting Yang, Shenyuan Gao, Qingwen Bu + 2 more2026-02-24🤖 cs.LG

Redefining the Down-Sampling Scheme of U-Net for Precision Biomedical Image Segmentation

Este artigo propõe uma nova estratégia de "Stair Pooling" para redes U-Net que, ao moderar a taxa de redução dimensional através de operações de agrupamento concatenadas em orientações variadas, minimiza a perda de informações e melhora significativamente a precisão da segmentação de imagens biomédicas em 2D e 3D.

Mingjie Li, Yizheng Chen, Md Tauhidul Islam + 1 more2026-02-24🤖 cs.AI

PA-Attack: Guiding Gray-Box Attacks on LVLM Vision Encoders with Prototypes and Attention

O artigo apresenta o PA-Attack, um método de ataque cinza que utiliza protótipos e um mecanismo de aprimoramento de atenção em duas etapas para guiar perturbações no codificador visual de Modelos de Linguagem e Visão (LVLMs), alcançando alta eficácia, eficiência e generalização de tarefas.

Hefei Mei, Zirui Wang, Chang Xu + 2 more2026-02-24💻 cs

CountEx: Fine-Grained Counting via Exemplars and Exclusion

O artigo apresenta o CountEx, um novo framework discriminativo de contagem visual que supera as limitações dos métodos existentes ao permitir a exclusão explícita de distratores visualmente similares por meio de prompts multimodais, introduzindo também o benchmark CoCount para avaliação sistemática e demonstrando desempenho superior em cenários complexos.

Yifeng Huang, Gia Khanh Nguyen, Minh Hoai2026-02-24💻 cs

FinSight-Net:A Physics-Aware Decoupled Network with Frequency-Domain Compensation for Underwater Fish Detection in Smart Aquaculture

O artigo apresenta o FinSight-Net, uma rede de detecção de peixes subaquáticos eficiente e consciente da física que utiliza processamento duplo desacoplado e agregação de caminhos para compensar a degradação óptica causada pela turbidez, alcançando desempenho superior e menor complexidade computacional em comparação com modelos existentes.

Jinsong Yang, Zeyuan Hu, Yichen Li + 1 more2026-02-24🤖 cs.AI

Decoupling Vision and Language: Codebook Anchored Visual Adaptation

O artigo apresenta o CRAFT, um método leve que desacopla a adaptação de visão e linguagem em Modelos Grandes de Visão e Linguagem (LVLMs) ao utilizar um código discreto para ancorar representações visuais, permitindo ajustes eficientes em domínios específicos sem modificar o modelo de linguagem e alcançando ganhos significativos de desempenho.

Jason Wu, Tianchen Zhao, Chang Liu + 7 more2026-02-24💻 cs

HD-TTA: Hypothesis-Driven Test-Time Adaptation for Safer Brain Tumor Segmentation

O artigo propõe o HD-TTA, uma nova abordagem de adaptação no momento do teste que, ao invés de otimização cega, utiliza um processo decisório dinâmico com hipóteses geométricas concorrentes (compactação ou inflação) e um mecanismo de pré-seleção para garantir a segurança na segmentação de tumores cerebrais, melhorando significativamente a precisão e reduzindo erros de fronteira em cenários de domínio cruzado sem comprometer o desempenho geral.

Kartik Jhawar, Lipo Wang2026-02-24💻 cs

Laplacian Multi-scale Flow Matching for Generative Modeling

Este artigo apresenta o LapFlow, um novo framework de correspondência de fluxo que utiliza representações multiescala via pirâmide Laplaciana e uma arquitetura de misturas de transformadores para gerar imagens de alta resolução com qualidade superior e maior eficiência computacional em comparação a métodos existentes.

Zelin Zhao, Petr Molodyk, Haotian Xue + 1 more2026-02-24🤖 cs.LG

Physics-informed Active Polarimetric 3D Imaging for Specular Surfaces

Este artigo propõe um framework de aprendizado profundo informado pela física que combina pistas de polarização e iluminação estruturada em uma única captura para realizar a estimativa precisa e robusta de normais de superfície em tempo real, superando as limitações de métodos existentes na imageamento 3D de superfícies especulares complexas.

Jiazhang Wang, Hyelim Yang, Tianyi Wang + 1 more2026-02-24🔬 physics.optics

Forgetting-Resistant and Lesion-Aware Source-Free Domain Adaptive Fundus Image Analysis with Vision-Language Model

Este artigo apresenta um método inovador de adaptação de domínio livre de fonte para análise de imagens de fundo de olho, denominado FRLA, que utiliza modelos visão-linguagem para prevenir o esquecimento de previsões confiáveis e incorporar conhecimento detalhado sobre lesões, superando assim os métodos atuais.

Zheang Huai, Hui Tang, Hualiang Wang + 1 more2026-02-24💻 cs

MICON-Bench: Benchmarking and Enhancing Multi-Image Context Image Generation in Unified Multimodal Models

Este trabalho apresenta o MICON-Bench, um benchmark abrangente para avaliar a geração de imagens em contexto multiimagem, juntamente com um novo mecanismo de reequilíbrio de atenção dinâmica (DAR) que melhora a coerência e reduz alucinações em modelos multimodais unificados.

Mingrui Wu, Hang Liu, Jiayi Ji + 2 more2026-02-24💻 cs

← Anterior Próximo →