Phi-4-reasoning-vision-15B Technical Report

El informe técnico presenta Phi-4-reasoning-vision-15B, un modelo multimodal de razonamiento de 15 mil millones de parámetros y peso abierto que, gracias a una arquitectura cuidadosa, una curaduría rigurosa de datos y un enfoque híbrido, logra un rendimiento competitivo en tareas visuales y lingüísticas, destacando especialmente en razonamiento científico, matemático y de interfaces de usuario.

Jyoti Aneja, Michael Harrison, Neel Joshi + 3 more2026-03-05🤖 cs.AI

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Este trabajo introduce un marco de diagnóstico a nivel de representación que utiliza la pareidolia facial para revelar cómo las elecciones representacionales, más que los umbrales de puntuación, determinan si los modelos de visión interpretan patrones ambiguos como rostros mediante sobreactivación semántica, abstención por incertidumbre o supresión conservadora.

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

Este artículo propone un nuevo marco de aprendizaje por refuerzo para la generación de informes radiológicos que prioriza la calidad de los datos mediante una estrategia de muestreo basada en la diversidad diagnóstica y optimiza la precisión clínica con un algoritmo de ponderación de tokens (DiTPO), logrando un rendimiento superior con una fracción significativa de las muestras de entrenamiento necesarias.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

El artículo presenta la Difusión Direccional Volumétrica (VDD), un método innovador que ancla la cuantificación de incertidumbre en un consenso anatómico determinista para resolver el compromiso entre fidelidad y diversidad en la segmentación de lesiones médicas ambiguas, logrando así mapas de incertidumbre anatómicamente coherentes que mejoran la toma de decisiones clínicas sin sacrificar la precisión de la segmentación.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

El artículo propone DQE-CIR, un método para la recuperación de imágenes compuestas que mejora la discriminatividad de las consultas mediante la ponderación aprendible de atributos visuales y un muestreo de negativos relativo al objetivo que evita la supresión de relevancia y la confusión semántica.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

El estudio concluye que, para el análisis de imágenes histopatológicas a nivel celular bajo restricciones de parches extremadamente pequeños, las arquitecturas específicas de la tarea superan en eficacia y eficiencia a los modelos fundacionales una vez que se dispone de datos suficientes, ya que estos últimos no ofrecen ventajas significativas en precisión ni robustez ante perturbaciones de desenfoque.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping

Este trabajo presenta un marco de visión y lenguaje sensible al nivel basado en CLIP que, mediante la agregación de vistas rotacionales y el uso de priores textuales, mejora significativamente la precisión en la predicción de la edad y el conteo de hojas de plantas a partir de imágenes multivista, superando a los métodos existentes en el conjunto de datos GroMo25.

Simon Warmers, Muhammad Zawish, Fayaz Ali Dharejo + 2 more2026-03-05💻 cs

Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

Este trabajo presenta un curador de cuadros de doble criterio que utiliza la estabilidad de la mirada y la respuesta pupilar para seleccionar de manera eficiente los fotogramas más relevantes en videos egocéntricos, logrando un rendimiento de clasificación comparable al de un flujo completo con solo el 10% de los datos sin requerir inferencia de modelos.

Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish2026-03-05💻 cs

Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

Este artículo presenta HPENets, una arquitectura de redes MLP que mejora la eficiencia y el rendimiento en el procesamiento de nubes de puntos mediante un enfoque de dos etapas (ABS-REF) que integra una codificación posicional de alta dimensión (HPE) y actualizaciones de información no local, superando a modelos anteriores como PointNeXt con una fracción significativa de los costos computacionales.

Yanmei Zou, Hongshan Yu, Yaonan Wang + 4 more2026-03-05🤖 cs.AI

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

Este estudio demuestra que la predictibilidad demográfica en las resonancias magnéticas cerebrales se debe principalmente a la variación anatómica más que a las diferencias de contraste dependientes de la adquisición, lo que subraya la necesidad de estrategias de mitigación de sesgos que aborden específicamente estas distintas fuentes para garantizar la generalización robusta.

Mehmet Yigit Avci, Akshit Achara, Andrew King + 1 more2026-03-05🤖 cs.AI

A Baseline Study and Benchmark for Few-Shot Open-Set Action Recognition with Feature Residual Discrimination

Este trabajo presenta un nuevo marco de referencia y un discriminador de residuos de características (FR-Disc) que logra el estado del arte en el reconocimiento de acciones de pocos ejemplos en escenarios abiertos, mejorando significativamente la capacidad de rechazar acciones desconocidas en datos de video sin comprometer la precisión en escenarios cerrados.

Stefano Berti, Giulia Pasquale, Lorenzo Natale2026-03-05💻 cs