Phi-4-reasoning-vision-15B Technical Report

O relatório técnico apresenta o Phi-4-reasoning-vision-15B, um modelo multimodal de raciocínio compacto e de pesos abertos que, graças a escolhas arquitetônicas cuidadosas e curadoria rigorosa de dados, alcança desempenho competitivo em tarefas visuais e linguísticas, com destaque para raciocínio científico, matemático e compreensão de interfaces, utilizando menos recursos computacionais.

Jyoti Aneja, Michael Harrison, Neel Joshi + 3 more2026-03-05🤖 cs.AI

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Este trabalho apresenta um framework de diagnóstico que utiliza a pareidolia facial para revelar como diferentes regimes de representação em modelos de visão (como VLMs, classificadores e detectores) lidam com ambiguidade visual, demonstrando que a interpretação de padrões ambíguos é governada mais pelas escolhas de representação do que por limiares de pontuação, com os VLMs exibindo uma superativação semântica sistemática enquanto os detectores mantêm viés reduzido através de priores conservadores.

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

Este artigo propõe uma nova abordagem para a geração de relatórios radiológicos usando aprendizado por reforço, que combina uma estratégia de amostragem de dados baseada em diversidade diagnóstica e uma otimização de política ponderada por tokens diagnósticos (DiTPO) para alcançar desempenho superior com menos dados e maior precisão clínica.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

O artigo propõe o Difusão Direcional Volumétrica (VDD), um modelo que supera as limitações de incerteza e de integridade estrutural em segmentações médicas ambíguas ao ancorar a geração estocástica em um consenso determinístico, permitindo a quantificação precisa de variações anatômicas sem comprometer a coerência topológica.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

O artigo propõe o método DQE-CIR para aprimorar a recuperação de imagens compostas ao gerar representações de consulta mais discriminativas, utilizando pesos de atributos aprendíveis para alinhar características visuais com o texto e uma amostragem de negativos relativa ao alvo que evita a supressão de relevância e a confusão semântica.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

Este estudo demonstra que, para a classificação celular em imagens histopatológicas de patches extremamente pequenos, arquiteturas específicas treinadas do zero superam os modelos fundacionais em precisão e eficiência, uma vez que estes últimos saturam com conjuntos de dados moderados e não oferecem vantagens significativas em robustez.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping

O artigo propõe um framework de visão e linguagem baseado em CLIP para fenotipagem de plantas multi-visão que, ao agregar representações invariantes a rotações e condicionar características visuais em priores textuais de nível de visão, alcança avanços significativos na previsão robusta de idade e contagem de folhas, reduzindo substancialmente o erro médio absoluto em comparação com métodos existentes.

Simon Warmers, Muhammad Zawish, Fayaz Ali Dharejo + 2 more2026-03-05💻 cs

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

Este estudo propõe um framework de aprendizado de representações desencaixadas para demonstrar que a previsibilidade demográfica em ressonâncias magnéticas cerebrais deriva principalmente de variações anatômicas, enquanto as diferenças de contraste são mais fracas e específicas do conjunto de dados, indicando que estratégias de mitigação de viés devem abordar explicitamente essas duas origens distintas para garantir robustez.

Mehmet Yigit Avci, Akshit Achara, Andrew King + 1 more2026-03-05🤖 cs.AI

A Baseline Study and Benchmark for Few-Shot Open-Set Action Recognition with Feature Residual Discrimination

Este artigo apresenta um novo estado da arte para o reconhecimento de ações em cenários abertos com poucos exemplos (FSOS-AR), propondo uma arquitetura baseada em um Discriminador de Resíduo de Características (FR-Disc) que melhora significativamente a rejeição de classes desconhecidas em dados de vídeo sem comprometer a precisão em cenários fechados.

Stefano Berti, Giulia Pasquale, Lorenzo Natale2026-03-05💻 cs