cs.CV artículos | Gist.Science

Phi-4-reasoning-vision-15B Technical Report

El informe técnico presenta Phi-4-reasoning-vision-15B, un modelo multimodal de razonamiento de 15 mil millones de parámetros y peso abierto que, gracias a una arquitectura cuidadosa, una curaduría rigurosa de datos y un enfoque híbrido, logra un rendimiento competitivo en tareas visuales y lingüísticas, destacando especialmente en razonamiento científico, matemático y de interfaces de usuario.

Jyoti Aneja, Michael Harrison, Neel Joshi + 3 more2026-03-05🤖 cs.AI

GeoSeg: Training-Free Reasoning-Driven Segmentation in Remote Sensing Imagery

El artículo presenta GeoSeg, un marco de segmentación en imágenes de teledetección que no requiere entrenamiento y utiliza el razonamiento de modelos de lenguaje multimodal junto con técnicas de refinamiento de coordenadas y prompts duales para superar la falta de datos de razonamiento, validado mediante el nuevo benchmark GeoSeg-Bench.

Lifan Jiang, Yuhang Pei, oxi Wu + 5 more2026-03-05🤖 cs.AI

RIVER: A Real-Time Interaction Benchmark for Video LLMs

El artículo presenta RIVER, un nuevo benchmark diseñado para evaluar la comprensión de video en tiempo real mediante tareas de memoria retrospectiva, percepción en vivo y anticipación proactiva, identificando las limitaciones de los modelos actuales y proponiendo un método general para mejorar la interacción dinámica en videos.

Yansong Shi, Qingsong Zhao, Tianxiang Jiang + 3 more2026-03-05💻 cs

When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

Este trabajo introduce un marco de diagnóstico a nivel de representación que utiliza la pareidolia facial para revelar cómo las elecciones representacionales, más que los umbrales de puntuación, determinan si los modelos de visión interpretan patrones ambiguos como rostros mediante sobreactivación semántica, abstención por incertidumbre o supresión conservadora.

Qianpu Chen, Derya Soydaner, Rob Saunders2026-03-05🤖 cs.AI

Weakly Supervised Patch Annotation for Improved Screening of Diabetic Retinopathy

Este trabajo presenta SAFE, un marco de dos etapas que combina aprendizaje débilmente supervisado y aprendizaje contrastivo para generar anotaciones de parches de retinopatía diabética a partir de datos escasos, mejorando significativamente el rendimiento de los modelos de clasificación y la detección de lesiones clínicamente relevantes.

Shramana Dey, Abhirup Banerjee, B. Uma Shankar + 2 more2026-03-05💻 cs

Discriminative Perception via Anchored Description for Reasoning Segmentation

El artículo presenta DPAD, un enfoque que mejora la segmentación de razonamiento mediante la generación de descripciones ancladas para discriminar activamente el objetivo del contexto, lo que resulta en cadenas de razonamiento más eficientes y precisas.

Tao Yang, Qing Zhou, Yanliang Li + 1 more2026-03-05🤖 cs.AI

Rethinking the Efficiency and Effectiveness of Reinforcement Learning for Radiology Report Generation

Este artículo propone un nuevo marco de aprendizaje por refuerzo para la generación de informes radiológicos que prioriza la calidad de los datos mediante una estrategia de muestreo basada en la diversidad diagnóstica y optimiza la precisión clínica con un algoritmo de ponderación de tokens (DiTPO), logrando un rendimiento superior con una fracción significativa de las muestras de entrenamiento necesarias.

Zilin Lu, Ruifeng Yuan, Weiwei Cao + 6 more2026-03-05💻 cs

Volumetric Directional Diffusion: Anchoring Uncertainty Quantification in Anatomical Consensus for Ambiguous Medical Image Segmentation

El artículo presenta la Difusión Direccional Volumétrica (VDD), un método innovador que ancla la cuantificación de incertidumbre en un consenso anatómico determinista para resolver el compromiso entre fidelidad y diversidad en la segmentación de lesiones médicas ambiguas, logrando así mapas de incertidumbre anatómicamente coherentes que mejoran la toma de decisiones clínicas sin sacrificar la precisión de la segmentación.

Chao Wu, Kangxian Xie, Mingchen Gao2026-03-05🤖 cs.AI

DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

El artículo propone DQE-CIR, un método para la recuperación de imágenes compuestas que mejora la discriminatividad de las consultas mediante la ponderación aprendible de atributos visuales y un muestreo de negativos relativo al objetivo que evita la supresión de relevancia y la confusión semántica.

Geon Park, Ji-Hoon Park, Seong-Whan Lee2026-03-05🤖 cs.AI

Long-Term Visual Localization in Dynamic Benthic Environments: A Dataset, Footprint-Based Ground Truth, and Visual Place Recognition Benchmark

Este trabajo presenta un nuevo conjunto de datos curado, un método innovador de verificación de verdad basada en huellas de imagen y una evaluación comparativa de reconocimiento visual de lugares para abordar los desafíos de la localización visual a largo plazo en entornos bentónicos dinámicos.

Martin Kvisvik Larsen, Oscar Pizarro2026-03-05💻 cs

Tuning Just Enough: Lightweight Backdoor Attacks on Multi-Encoder Diffusion Models

Este trabajo presenta MELT, un ataque de puerta trasera ligero que demuestra que es posible comprometer modelos de difusión multi-encoder como Stable Diffusion 3 ajustando menos del 0,2% de sus parámetros mediante adaptadores de bajo rango, revelando vulnerabilidades previamente ignoradas en configuraciones con múltiples codificadores de texto.

Ziyuan Chen, Yujin Jeong, Tobias Braun + 1 more2026-03-05🤖 cs.LG

Revisiting the Role of Foundation Models in Cell-Level Histopathological Image Analysis under Small-Patch Constraints -- Effects of Training Data Scale and Blur Perturbations on CNNs and Vision Transformers

El estudio concluye que, para el análisis de imágenes histopatológicas a nivel celular bajo restricciones de parches extremadamente pequeños, las arquitecturas específicas de la tarea superan en eficacia y eficiencia a los modelos fundacionales una vez que se dispone de datos suficientes, ya que estos últimos no ofrecen ventajas significativas en precisión ni robustez ante perturbaciones de desenfoque.

Hiroki Kagiyama, Toru Nagasaka, Yukari Adachi + 5 more2026-03-05💻 cs

EgoPoseFormer v2: Accurate Egocentric Human Motion Estimation for AR/VR

EgoPoseFormer v2 es un método basado en transformadores y un sistema de autoetiquetado que mejora significativamente la estimación precisa y temporalmente consistente del movimiento humano desde una perspectiva egocéntrica para experiencias de AR/VR, superando a los métodos actuales en precisión y reduciendo el jitter temporal.

Zhenyu Li, Sai Kumar Dwivedi, Filip Maric + 11 more2026-03-05💻 cs

CLIP-Guided Multi-Task Regression for Multi-View Plant Phenotyping

Este trabajo presenta un marco de visión y lenguaje sensible al nivel basado en CLIP que, mediante la agregación de vistas rotacionales y el uso de priores textuales, mejora significativamente la precisión en la predicción de la edad y el conteo de hojas de plantas a partir de imágenes multivista, superando a los métodos existentes en el conjunto de datos GroMo25.

Simon Warmers, Muhammad Zawish, Fayaz Ali Dharejo + 2 more2026-03-05💻 cs

Real Eyes Realize Faster: Gaze Stability and Pupil Novelty for Efficient Egocentric Learning

Este trabajo presenta un curador de cuadros de doble criterio que utiliza la estabilidad de la mirada y la respuesta pupilar para seleccionar de manera eficiente los fotogramas más relevantes en videos egocéntricos, logrando un rendimiento de clasificación comparable al de un flujo completo con solo el 10% de los datos sin requerir inferencia de modelos.

Ajan Subramanian, Sumukh Bettadapura, Rohan Sathish2026-03-05💻 cs

Efficient Point Cloud Processing with High-Dimensional Positional Encoding and Non-Local MLPs

Este artículo presenta HPENets, una arquitectura de redes MLP que mejora la eficiencia y el rendimiento en el procesamiento de nubes de puntos mediante un enfoque de dos etapas (ABS-REF) que integra una codificación posicional de alta dimensión (HPE) y actualizaciones de información no local, superando a modelos anteriores como PointNeXt con una fracción significativa de los costos computacionales.

Yanmei Zou, Hongshan Yu, Yaonan Wang + 4 more2026-03-05🤖 cs.AI

Understanding Sources of Demographic Predictability in Brain MRI via Disentangling Anatomy and Contrast

Este estudio demuestra que la predictibilidad demográfica en las resonancias magnéticas cerebrales se debe principalmente a la variación anatómica más que a las diferencias de contraste dependientes de la adquisición, lo que subraya la necesidad de estrategias de mitigación de sesgos que aborden específicamente estas distintas fuentes para garantizar la generalización robusta.

Mehmet Yigit Avci, Akshit Achara, Andrew King + 1 more2026-03-05🤖 cs.AI

Any2Any: Unified Arbitrary Modality Translation for Remote Sensing

El artículo presenta Any2Any, un marco unificado de difusión latente que permite la traducción arbitraria entre múltiples modalidades de teledetección mediante un espacio latente compartido y adaptadores residuales, superando las limitaciones de los métodos existentes y demostrando una fuerte generalización cero-shot gracias al nuevo conjunto de datos RST-1M.

Haoyang Chen, Jing Zhang, Hebaixu Wang + 7 more2026-03-05💻 cs

TextBoost: Boosting Scene Text Fidelity in Ultra-low Bitrate Image Compression

El método TextBoost mejora la fidelidad del texto escénico en la compresión de imágenes a ultra baja tasa de bits transmitiendo información textual auxiliar obtenida por OCR para guiar la reconstrucción en el decodificador, logrando una precisión de reconocimiento significativamente superior sin sacrificar la calidad visual global.

Bingxin Wang, Yuan Lan, Zhaoyi Sun + 2 more2026-03-05💻 cs

A Baseline Study and Benchmark for Few-Shot Open-Set Action Recognition with Feature Residual Discrimination

Este trabajo presenta un nuevo marco de referencia y un discriminador de residuos de características (FR-Disc) que logra el estado del arte en el reconocimiento de acciones de pocos ejemplos en escenarios abiertos, mejorando significativamente la capacidad de rechazar acciones desconocidas en datos de video sin comprometer la precisión en escenarios cerrados.

Stefano Berti, Giulia Pasquale, Lorenzo Natale2026-03-05💻 cs

← Anterior Siguiente →