Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Este estudio revela que, aunque los Modelos Visión-Lenguaje (VLM) pueden reconocer texto con alta precisión, sus patrones de decisión para resolver ambigüedades en caracteres japoneses difieren cualitativamente de los humanos, mostrando que el contexto puede mejorar la alineación en ciertas condiciones pero no elimina las discrepancias fundamentales en la percepción de la forma.

Daichi Haraguchi2026-03-02💻 cs

OPTIAGENT: A Physics-Driven Agentic Framework for Automated Optical Design

Este trabajo presenta OPTIAGENT, un marco de agentes impulsado por física que utiliza modelos de lenguaje grandes optimizados mediante una recompensa lexicográfica óptica y un conjunto de datos especializado para automatizar el diseño de sistemas lentes, permitiendo a usuarios sin formación específica crear configuraciones ópticas funcionales con un rendimiento superior a los métodos tradicionales.

Yuyu Geng, Lei Sun, Yao Gao + 6 more2026-03-02🤖 cs.LG

VideoPulse: Neonatal heart rate and peripheral capillary oxygen saturation (SpO2) estimation from contact free video

El artículo presenta VideoPulse, un conjunto de datos y una metodología de aprendizaje profundo que permite estimar de forma precisa y sin contacto la frecuencia cardíaca y la saturación de oxígeno en neonatos a partir de videos faciales, ofreciendo una alternativa no invasiva y de bajo costo para el monitoreo en unidades de cuidados intensivos.

Deependra Dewagiri, Kamesh Anuradha, Pabadhi Liyanage + 6 more2026-03-02⚡ eess

BiM-GeoAttn-Net: Linear-Time Depth Modeling with Geometry-Aware Attention for 3D Aortic Dissection CTA Segmentation

El artículo presenta BiM-GeoAttn-Net, un marco de aprendizaje profundo ligero que combina modelado de estado espacial bidireccional de tiempo lineal con atención consciente de la geometría para lograr una segmentación tridimensional precisa y coherente de las diseciones aórticas en angiografías por tomografía computarizada.

Yuan Zhang, Lei Liu, Jialin Zhang + 3 more2026-03-02⚡ eess

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

El artículo presenta Sea², un marco de adaptación visual no supervisada que utiliza un agente guiado por un modelo de lenguaje visual personalizado para controlar la pose y seleccionar vistas informativas, mejorando significativamente el rendimiento de modelos de percepción preentrenados en entornos interiores sin necesidad de reentrenarlos ni usar etiquetas.

Tianci Tang, Tielong Cai, Hongwei Wang + 1 more2026-03-02🤖 cs.AI

Footprint-Guided Exemplar-Free Continual Histopathology Report Generation

Este artículo presenta un marco de aprendizaje continuo sin ejemplos para la generación de informes de patología a partir de imágenes de diapositivas completas, que evita el olvido catastrófico mediante el uso de huellas digitales compactas para la recuperación generativa y descriptores de estilo para adaptar las convenciones de redacción, todo ello sin necesidad de almacenar datos históricos.

Pratibha Kumari, Daniel Reisenbüchler, Afshin Bozorgpour + 3 more2026-03-02💻 cs

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

Este artículo presenta un marco multimodal de extremo a extremo que integra imágenes y metadatos mediante mecanismos de atención cruzada y aprendizaje de diccionarios para clasificar series DICOM de manera robusta, superando los desafíos de heterogeneidad, longitud variable y metadatos incompletos sin necesidad de imputación.

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

Este artículo presenta un modelo de difusión guiado por la incertidumbre de polarización que supera las limitaciones de los métodos existentes para el remuestreo de imágenes de polarización en color, logrando una reconstrucción precisa de las características de polarización mediante la integración de priores de difusión y la estimación explícita de incertidumbre.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess