PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

El artículo presenta PolGS++, un marco de representación gaussiana polarimétrica guiado por física que integra un modelo pBRDF y una máscara de visibilidad guiada por profundidad para lograr una reconstrucción rápida y precisa de superficies reflectantes mediante la decouplación de componentes difusos y especulares.

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

El artículo presenta HanMoVLM, un modelo de visión-lingüaje grande especializado en la evaluación profesional de pinturas chinas que, mediante un dataset de obras maestras y un razonamiento paso a paso validado por expertos, cierra la brecha con la evaluación humana y actúa como verificador de alta calidad para mejorar la generación de imágenes artísticas.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

El artículo presenta MEDISEG, un nuevo conjunto de datos con máscaras de segmentación de instancias para 32 tipos de pastillas en 8262 imágenes que aborda la falta de complejidades del mundo real, demostrando su eficacia para entrenar modelos de IA que previenen errores de medicación y mejoran el reconocimiento de clases no vistas en escenarios de múltiples pastillas.

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation

El artículo presenta BALD-SAM, un marco de aprendizaje activo espacial que adapta la incertidumbre epistémica mediante el criterio BALD para seleccionar automáticamente las ubicaciones de los prompts más informativas en el modelo Segment Anything (SAM), logrando un rendimiento superior al de la anotación humana y baselines existentes en múltiples dominios con un coste computacional reducido.

Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib2026-03-12🤖 cs.AI

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

Este estudio evalúa el reconocimiento de píldoras en escenarios de pocos ejemplos bajo cambios de dominio visual, concluyendo que aunque la clasificación semántica se adapta rápidamente con muy pocos datos, la precisión en la localización disminuye significativamente en condiciones complejas como el solapamiento, lo que subraya la importancia de utilizar datos de entrenamiento realistas para garantizar la robustez en despliegues reales.

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops

Este artículo presenta la primera solución de detección de presencia humana en portátiles comerciales que utiliza exclusivamente su hardware Wi-Fi integrado mediante una nueva técnica de espectro Doppler filtrado por rango (RF-DS) y un marco de procesamiento adaptativo, eliminando la necesidad de sensores externos, infraestructura adicional o problemas de privacidad asociados a las cámaras.

Jessica Sanson, Rahul C. Shah, Valerio Frascolla2026-03-12⚡ eess

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

El artículo presenta UltrasoundAgents, un marco de razonamiento basado en agentes múltiples jerárquicos y una estrategia de entrenamiento progresivo desacoplado que mejora el diagnóstico de ecografías mamarias al imitar el flujo de trabajo clínico para localizar lesiones, analizar atributos específicos y generar evidencia estructurada y trazable para la clasificación BI-RADS.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

El artículo propone DIPE, un mecanismo de codificación posicional que mitiga el desvanecimiento visual en modelos de lenguaje multimodal de gran contexto al eliminar la penalización basada en la distancia entre tokens visuales y textuales, garantizando así una conexión visual estable sin sacrificar el rendimiento en tareas de contexto corto.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

El artículo presenta S2D, una nueva metodología que combina un modelo de difusión eficiente y una estrategia de reconstrucción robusta para transformar nubes de puntos dispersas en representaciones 3D densas de alta calidad mediante mallas de Gauss 3D, logrando así una reconstrucción de alta fidelidad con un número mínimo de vistas de entrada.

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

Este trabajo presenta un marco de aprendizaje por imitación de por vida que utiliza un espacio latente multimodal para la reproducción de experiencias y un mecanismo de ajuste incremental para estabilizar la adaptación, logrando un nuevo estado del arte en los benchmarks LIBERO con mejoras significativas en el rendimiento y una reducción sustancial del olvido catastrófico.

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

El sistema CBCTRepD, desarrollado con un conjunto de datos de 7.408 estudios, mejora la interpretación de tomografías cónicas (CBCT) orales y maxilofaciales al generar informes de alta calidad que asisten a radiólogos de todos los niveles en la reducción de errores y la estandarización de los diagnósticos.

Qinxin Wu, Fucheng Niu, Hengchuan Zhu, Yifan Sun, Ye Shen, Xu Li, Han Wu, Leqi Liu, Zhiwen Pan, Zuozhu Liu, Fudong Zhu, Bin Feng2026-03-12💻 cs

Med-DualLoRA: Local Adaptation of Foundation Models for 3D Cardiac MRI

El artículo presenta Med-DualLoRA, un marco de ajuste fino federado y eficiente en parámetros que adapta modelos fundacionales a imágenes de resonancia magnética cardíaca 3D mediante la descomposición aditiva de adaptadores globales y locales, logrando un mejor rendimiento y privacidad en entornos clínicos heterogéneos con menor costo de comunicación.

Joan Perramon-Llussà, Amelia Jiménez-Sánchez, Grzegorz Skorupko, Fotis Avgoustidis, Carlos Martín-Isla, Karim Lekadir, Polyxeni Gkontra2026-03-12💻 cs