cs.CV artículos | Gist.Science

PolGS++: Physically-Guided Polarimetric Gaussian Splatting for Fast Reflective Surface Reconstruction

El artículo presenta PolGS++, un marco de representación gaussiana polarimétrica guiado por física que integra un modelo pBRDF y una máscara de visibilidad guiada por profundidad para lograr una reconstrucción rápida y precisa de superficies reflectantes mediante la decouplación de componentes difusos y especulares.

Yufei Han, Chu Zhou, Youwei Lyu, Qi Chen, Si Li, Boxin Shi, Yunpeng Jia, Heng Guo, Zhanyu Ma2026-03-12💻 cs

Backdoor Directions in Vision Transformers

Este artículo demuestra que es posible identificar y manipular causalmente una "dirección de activación" específica en Vision Transformers asociada a ataques de puerta trasera, lo que permite trazar su procesamiento interno, diferenciar tipos de triggers y proponer un método de detección sin datos.

Sengim Karayalcin, Marina Krcek, Pin-Yu Chen, Stjepan Picek2026-03-12💻 cs

HanMoVLM: Large Vision-Language Models for Professional Artistic Painting Evaluation

El artículo presenta HanMoVLM, un modelo de visión-lingüaje grande especializado en la evaluación profesional de pinturas chinas que, mediante un dataset de obras maestras y un razonamiento paso a paso validado por expertos, cierra la brecha con la evaluación humana y actúa como verificador de alta calidad para mejorar la generación de imágenes artísticas.

Hongji Yang, Yucheng Zhou, Wencheng Han, Songlian Li, Xiaotong Zhao, Jianbing Shen2026-03-12💻 cs

A dataset of medication images with instance segmentation masks for preventing adverse drug events

El artículo presenta MEDISEG, un nuevo conjunto de datos con máscaras de segmentación de instancias para 32 tipos de pastillas en 8262 imágenes que aborda la falta de complejidades del mundo real, demostrando su eficacia para entrenar modelos de IA que previenen errores de medicación y mejoran el reconocimiento de clases no vistas en escenarios de múltiples pastillas.

W. I. Chu, S. Hirani, G. Tarroni, L. Li2026-03-12💻 cs

BALD-SAM: Disagreement-based Active Prompting in Interactive Segmentation

El artículo presenta BALD-SAM, un marco de aprendizaje activo espacial que adapta la incertidumbre epistémica mediante el criterio BALD para seleccionar automáticamente las ubicaciones de los prompts más informativas en el modelo Segment Anything (SAM), logrando un rendimiento superior al de la anotación humana y baselines existentes en múltiples dominios con un coste computacional reducido.

Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib2026-03-12🤖 cs.AI

Evaluating Few-Shot Pill Recognition Under Visual Domain Shift

Este estudio evalúa el reconocimiento de píldoras en escenarios de pocos ejemplos bajo cambios de dominio visual, concluyendo que aunque la clasificación semántica se adapta rápidamente con muy pocos datos, la precisión en la localización disminuye significativamente en condiciones complejas como el solapamiento, lo que subraya la importancia de utilizar datos de entrenamiento realistas para garantizar la robustez en despliegues reales.

W. I. Chu, G. Tarroni, L. Li2026-03-12💻 cs

On the Reliability of Cue Conflict and Beyond

Este artículo presenta REFINED-BIAS, un nuevo marco de evaluación y conjunto de datos diseñado para superar las limitaciones de inestabilidad y ambigüedad del benchmark de conflicto de señales actual, permitiendo un diagnóstico más fiable y comparable de los sesgos de forma y textura en redes neuronales.

Pum Jun Kim, Seung-Ah Lee, Seongho Park, Dongyoon Han, Jaejun Yoo2026-03-12🤖 cs.AI

Human Presence Detection via Wi-Fi Range-Filtered Doppler Spectrum on Commodity Laptops

Este artículo presenta la primera solución de detección de presencia humana en portátiles comerciales que utiliza exclusivamente su hardware Wi-Fi integrado mediante una nueva técnica de espectro Doppler filtrado por rango (RF-DS) y un marco de procesamiento adaptativo, eliminando la necesidad de sensores externos, infraestructura adicional o problemas de privacidad asociados a las cámaras.

Jessica Sanson, Rahul C. Shah, Valerio Frascolla2026-03-12⚡ eess

UltrasoundAgents: Hierarchical Multi-Agent Evidence-Chain Reasoning for Breast Ultrasound Diagnosis

El artículo presenta UltrasoundAgents, un marco de razonamiento basado en agentes múltiples jerárquicos y una estrategia de entrenamiento progresivo desacoplado que mejora el diagnóstico de ecografías mamarias al imitar el flujo de trabajo clínico para localizar lesiones, analizar atributos específicos y generar evidencia estructurada y trazable para la clasificación BI-RADS.

Yali Zhu, Kang Zhou, Dingbang Wu, Gaofeng Meng2026-03-12💻 cs

Beyond Sequential Distance: Inter-Modal Distance Invariant Position Encoding

El artículo propone DIPE, un mecanismo de codificación posicional que mitiga el desvanecimiento visual en modelos de lenguaje multimodal de gran contexto al eliminar la penalización basada en la distancia entre tokens visuales y textuales, garantizando así una conexión visual estable sin sacrificar el rendimiento en tareas de contexto corto.

Lin Chen, Bolin Ni, Qi Yang, Zili Wang, Kun Ding, Ying Wang, Houwen Peng, Shiming Xiang2026-03-12💻 cs

Bilevel Layer-Positioning LoRA for Real Image Dehazing

Este artículo presenta BiLaLoRA, un método de desvanecimiento de imágenes reales que combina una pérdida dirigida por texto basada en CLIP para el aprendizaje no supervisado y una estrategia de posicionamiento de capas LoRA de dos niveles para una adaptación eficiente y dirigida.

Yan Zhang, Long Ma, Yuxin Feng, Zhe Huang, Fan Zhou, Zhuo Su2026-03-12💻 cs

S2D: Sparse to Dense Lifting for 3D Reconstruction with Minimal Inputs

El artículo presenta S2D, una nueva metodología que combina un modelo de difusión eficiente y una estrategia de reconstrucción robusta para transformar nubes de puntos dispersas en representaciones 3D densas de alta calidad mediante mallas de Gauss 3D, logrando así una reconstrucción de alta fidelidad con un número mínimo de vistas de entrada.

Yuzhou Ji, Qijian Tian, He Zhu, Xiaoqi Jiang, Guangzhi Cao, Lizhuang Ma, Yuan Xie, Xin Tan2026-03-12💻 cs

Novel Architecture of RPA In Oral Cancer Lesion Detection

Este estudio presenta una nueva arquitectura de automatización robótica de procesos (RPA) para la detección de lesiones de cáncer oral que, mediante el uso de patrones de diseño y procesamiento por lotes, logra una mejora de eficiencia de 60 a 100 veces en comparación con los métodos estándar.

Revana Magdy, Joy Naoum, Ali Hamdi2026-03-12💻 cs

Lifelong Imitation Learning with Multimodal Latent Replay and Incremental Adjustment

Este trabajo presenta un marco de aprendizaje por imitación de por vida que utiliza un espacio latente multimodal para la reproducción de experiencias y un mecanismo de ajuste incremental para estabilizar la adaptación, logrando un nuevo estado del arte en los benchmarks LIBERO con mejoras significativas en el rendimiento y una reducción sustancial del olvido catastrófico.

Fanqi Yu, Matteo Tiezzi, Tommaso Apicella, Cigdem Beyan, Vittorio Murino2026-03-12💻 cs

Bridging the Skill Gap in Clinical CBCT Interpretation with CBCTRepD

El sistema CBCTRepD, desarrollado con un conjunto de datos de 7.408 estudios, mejora la interpretación de tomografías cónicas (CBCT) orales y maxilofaciales al generar informes de alta calidad que asisten a radiólogos de todos los niveles en la reducción de errores y la estandarización de los diagnósticos.

Qinxin Wu, Fucheng Niu, Hengchuan Zhu, Yifan Sun, Ye Shen, Xu Li, Han Wu, Leqi Liu, Zhiwen Pan, Zuozhu Liu, Fudong Zhu, Bin Feng2026-03-12💻 cs

Historical Consensus: Preventing Posterior Collapse via Iterative Selection of Gaussian Mixture Priors

Este artículo propone el Entrenamiento de Consenso Histórico, un método iterativo que selecciona mezclas gaussianas para crear una barrera de estabilidad que elimina por completo el colapso posterior en los autoencoders variacionales sin requerir restricciones arquitectónicas ni ajustes de hiperparámetros.

Zegu Zhang, Jian Zhang2026-03-12🤖 cs.LG

Pointy - A Lightweight Transformer for Point Cloud Foundation Models

El artículo presenta "Pointy", una arquitectura ligera basada en transformadores para modelos fundamentales de nubes de puntos que, a pesar de entrenarse con solo 39.000 muestras, supera a modelos más grandes y alcanza resultados cercanos al estado del arte, demostrando la eficacia de un diseño arquitectónico cuidadoso y un régimen de entrenamiento estandarizado.

Konrad Szafer, Marek Kraft, Dominik Belter2026-03-12🤖 cs.LG

Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

Este artículo propone SSL-V3, un modelo basado en aprendizaje auto-supervisado y transformadores de visión que integra la evaluación de calidad de video sin referencia para mejorar la clasificación de videos, demostrando una alta precisión en datasets de salud como I-CONECT al abordar la escasez de etiquetas de calidad.

Jian Sun, Mohammad H. Mahoor2026-03-12💻 cs

Med-DualLoRA: Local Adaptation of Foundation Models for 3D Cardiac MRI

El artículo presenta Med-DualLoRA, un marco de ajuste fino federado y eficiente en parámetros que adapta modelos fundacionales a imágenes de resonancia magnética cardíaca 3D mediante la descomposición aditiva de adaptadores globales y locales, logrando un mejor rendimiento y privacidad en entornos clínicos heterogéneos con menor costo de comunicación.

Joan Perramon-Llussà, Amelia Jiménez-Sánchez, Grzegorz Skorupko, Fotis Avgoustidis, Carlos Martín-Isla, Karim Lekadir, Polyxeni Gkontra2026-03-12💻 cs

VCR: Variance-Driven Channel Recalibration for Robust Low-Light Enhancement

El artículo presenta VCR, un marco novedoso para la mejora de imágenes en baja iluminación que utiliza recalibración de canales impulsada por la varianza y alineación de distribuciones de color para superar las limitaciones de consistencia y fidelidad cromática de los métodos existentes.

Zhixin Cheng, Fangwen Zhang, Xiaotian Yin, Baoqun Yin, Haodian Wang2026-03-12💻 cs

← Anterior Siguiente →