cs.CV artigos | Gist.Science

Phi-4-reasoning-vision-15B Technical Report

O relatório técnico apresenta o Phi-4-reasoning-vision-15B, um modelo multimodal de raciocínio compacto e de pesos abertos que, graças a escolhas arquitetônicas cuidadosas e curadoria rigorosa de dados, alcança desempenho competitivo em tarefas visuais e linguísticas, com destaque para raciocínio científico, matemático e compreensão de interfaces, utilizando menos recursos computacionais.

Jyoti Aneja, Michael Harrison, Neel Joshi + 3 more2026-03-05🤖 cs.AI

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

O artigo apresenta o GeoSeg, um framework zero-shot e sem treinamento que supera os desafios de segmentação em imagens de sensoriamento remoto ao combinar o raciocínio de MLLMs com refinamento de coordenadas e um mecanismo de prompt duplo, validado pelo novo benchmark GeoSeg-Bench.

Lifan Jiang, Yuhang Pei, oxi Wu + 5 more2026-03-05🤖 cs.AI

RIVER: A Real-Time Interaction Benchmark for Video LLMs

O artigo apresenta o RIVER Bench, um novo benchmark e método de melhoria projetados para avaliar e aprimorar a capacidade de modelos de linguagem multimodal de compreender vídeos em tempo real através de interações dinâmicas que envolvem memória retrospectiva, percepção ao vivo e antecipação proativa.

Yansong Shi, Qingsong Zhao, Tianxiang Jiang + 3 more2026-03-05💻 cs

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Este trabalho apresenta um framework de diagnóstico que utiliza a pareidolia facial para revelar como diferentes regimes de representação em modelos de visão (como VLMs, classificadores e detectores) lidam com ambiguidade visual, demonstrando que a interpretação de padrões ambíguos é governada mais pelas escolhas de representação do que por limiares de pontuação, com os VLMs exibindo uma superativação semântica sistemática enquanto os detectores mantêm viés reduzido através de priores conservadores.

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Weakly Supervised Patch Annotation for Improved Screening of Diabetic Retinopathy

O artigo apresenta o SAFE, um framework de duas etapas que utiliza aprendizado por contraste e inferência de embeddings para expandir automaticamente anotações esparsas de lesões em retinopatia diabética, melhorando significativamente a precisão da detecção e o desempenho de modelos de aprendizado profundo.

Shramana Dey, Abhirup Banerjee, B. Uma Shankar + 2 more2026-03-05💻 cs

Discriminative Perception via Anchored Description for Reasoning Segmentation

O artigo apresenta o DPAD, um método que melhora a segmentação por raciocínio ao introduzir uma percepção discriminativa via descrições ancoradas, forçando o modelo a focar nos atributos únicos do alvo, o que resulta em cadeias de raciocínio mais curtas e precisas.

Tao Yang, Qing Zhou, Yanliang Li + 1 more2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

Este artigo propõe uma nova abordagem para a geração de relatórios radiológicos usando aprendizado por reforço, que combina uma estratégia de amostragem de dados baseada em diversidade diagnóstica e uma otimização de política ponderada por tokens diagnósticos (DiTPO) para alcançar desempenho superior com menos dados e maior precisão clínica.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

O artigo propõe o Difusão Direcional Volumétrica (VDD), um modelo que supera as limitações de incerteza e de integridade estrutural em segmentações médicas ambíguas ao ancorar a geração estocástica em um consenso determinístico, permitindo a quantificação precisa de variações anatômicas sem comprometer a coerência topológica.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

O artigo propõe o método DQE-CIR para aprimorar a recuperação de imagens compostas ao gerar representações de consulta mais discriminativas, utilizando pesos de atributos aprendíveis para alinhar características visuais com o texto e uma amostragem de negativos relativa ao alvo que evita a supressão de relevância e a confusão semântica.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

Este trabalho apresenta um novo conjunto de dados curado, um método inovador de verificação de verdade baseada em "footprints" de imagem e um benchmark de reconhecimento visual de locais para superar as lacunas na localização visual de longo prazo em ambientes bentônicos dinâmicos.

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

Tuning Just Enough: Lightweight Backdoor Attacks on Multi-Encoder Diffusion Models

Este trabalho propõe o MELT, um ataque de backdoor leve para o modelo de difusão Stable Diffusion 3 que, ao ajustar menos de 0,2% dos parâmetros dos seus múltiplos codificadores de texto, demonstra vulnerabilidades críticas anteriormente negligenciadas em configurações multi-codificador.

Ziyuan Chen, Yujin Jeong, Tobias Braun + 1 more2026-03-05🤖 cs.LG

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

Este estudo demonstra que, para a classificação celular em imagens histopatológicas de patches extremamente pequenos, arquiteturas específicas treinadas do zero superam os modelos fundacionais em precisão e eficiência, uma vez que estes últimos saturam com conjuntos de dados moderados e não oferecem vantagens significativas em robustez.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

O artigo apresenta o EgoPoseFormer v2, um método baseado em transformers e um sistema de auto-rotulagem que superam os desafios de estimativa de movimento humano em primeira pessoa para AR/VR, alcançando maior precisão e consistência temporal com baixa latência ao aproveitar grandes conjuntos de dados não rotulados.

Zhenyu Li, Sai Kumar Dwivedi, Filip Maric + 11 more2026-03-05💻 cs

CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping

O artigo propõe um framework de visão e linguagem baseado em CLIP para fenotipagem de plantas multi-visão que, ao agregar representações invariantes a rotações e condicionar características visuais em priores textuais de nível de visão, alcança avanços significativos na previsão robusta de idade e contagem de folhas, reduzindo substancialmente o erro médio absoluto em comparação com métodos existentes.

Simon Warmers, Muhammad Zawish, Fayaz Ali Dharejo + 2 more2026-03-05💻 cs

Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

Este artigo propõe um curador de quadros eficiente para câmeras egocêntricas que utiliza a estabilidade do olhar e a resposta pupilar para selecionar automaticamente apenas os quadros mais relevantes, alcançando desempenho de aprendizado comparável ao do fluxo completo com apenas 10% dos dados.

Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish2026-03-05💻 cs

Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

Este artigo apresenta o HPENet, uma arquitetura de redes MLP para processamento de nuvens de pontos que combina codificação posicional de alta dimensão e MLPs não locais dentro de uma visão de abstração e refinamento, alcançando um equilíbrio superior entre eficiência computacional e desempenho em diversas tarefas.

Yanmei Zou, Hongshan Yu, Yaonan Wang + 4 more2026-03-05🤖 cs.AI

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

Este estudo propõe um framework de aprendizado de representações desencaixadas para demonstrar que a previsibilidade demográfica em ressonâncias magnéticas cerebrais deriva principalmente de variações anatômicas, enquanto as diferenças de contraste são mais fracas e específicas do conjunto de dados, indicando que estratégias de mitigação de viés devem abordar explicitamente essas duas origens distintas para garantir robustez.

Mehmet Yigit Avci, Akshit Achara, Andrew King + 1 more2026-03-05🤖 cs.AI

Any2Any: Unified Arbitrary Modality Translation for Remote Sensing

O artigo apresenta o Any2Any, um framework unificado de difusão latente que permite a tradução arbitrária entre múltiplas modalidades de sensoriamento remoto através de uma representação latente compartilhada, superando as limitações de complexidade e generalização dos métodos existentes e sendo validado pelo novo conjunto de dados RST-1M.

Haoyang Chen, Jing Zhang, Hebaixu Wang + 7 more2026-03-05💻 cs

TextBoost: Boosting Scene Text Fidelity in Ultra-low Bitrate Image Compression

O artigo apresenta o TextBoost, um método que melhora a fidelidade de texto em imagens comprimidas em taxas de bits ultrabaixas ao utilizar informações textuais auxiliares extraídas por OCR para guiar a reconstrução no decodificador, alcançando significativamente maior precisão no reconhecimento de texto sem comprometer a qualidade visual global.

Bingxin Wang, Yuan Lan, Zhaoyi Sun + 2 more2026-03-05💻 cs

A Baseline Study and Benchmark for Few-Shot Open-Set Action Recognition with Feature Residual Discrimination

Este artigo apresenta um novo estado da arte para o reconhecimento de ações em cenários abertos com poucos exemplos (FSOS-AR), propondo uma arquitetura baseada em um Discriminador de Resíduo de Características (FR-Disc) que melhora significativamente a rejeição de classes desconhecidas em dados de vídeo sem comprometer a precisão em cenários fechados.

Stefano Berti, Giulia Pasquale, Lorenzo Natale2026-03-05💻 cs

← Anterior Próximo →