Intracoronary Optical Coherence Tomography Image Processing and Vessel Classification Using Machine Learning

Este artículo presenta un pipeline automatizado que utiliza técnicas de aprendizaje automático, como la extracción de características y clasificadores SVM y regresión logística, para lograr una segmentación y clasificación precisa de vasos sanguíneos en imágenes de tomografía de coherencia óptica intracoronaria con una precisión del 99,68%.

Amal Lahchim, Lambros Athanasiou2026-02-20🤖 cs.AI

Three-dimensional Damage Visualization of Civil Structures via Gaussian Splatting-enabled Digital Twins

Este estudio presenta un método de gemelo digital habilitado por Splatting Gaussiano que supera las limitaciones de las técnicas tradicionales para visualizar daños en estructuras civiles en 3D, ofreciendo una reconstrucción eficiente, detallada y actualizable mediante una estrategia multiescala probada en un conjunto de datos sintético de post-sismo.

Shuo Wang, Shuo Wang, Xin Nie + 3 more2026-02-20💻 cs

Analytic Score Optimization for Multi Dimension Video Quality Assessment

Este artículo presenta UltraVQA, un dataset a gran escala de contenido generado por usuarios con anotaciones multidimensionales, e introduce la Optimización de Puntuación Analítica (ASO), un método de post-entrenamiento teóricamente fundamentado que supera a los modelos existentes al mejorar la precisión y la alineación con las preferencias humanas en la evaluación de calidad de video.

Boda Lin, Yongjie Zhu, Wenyu Qin + 2 more2026-02-20💻 cs

StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

Este artículo presenta StereoAdapter-2, un marco de estimación de profundidad estéreo para entornos submarinos que reemplaza las actualizaciones convencionales basadas en GRU con un operador ConvSS2D de modelos de estado selectivo para lograr una propagación espacial eficiente de largo alcance, y que se complementa con la creación del dataset sintético UW-StereoDepth-80K, logrando un rendimiento de vanguardia en pruebas cero-shot y validación en plataformas reales.

Zeyu Ren, Xiang Li, Yiran Wang + 2 more2026-02-20💻 cs

Xray-Visual Models: Scaling Vision models on Industry Scale Data

Xray-Visual es un modelo unificado de visión entrenado a escala industrial con datos de redes sociales que, mediante una arquitectura eficiente y un pipeline de entrenamiento de tres etapas, logra un rendimiento superior en clasificación de imágenes, comprensión de video y recuperación multimodal, mejorado aún más mediante la integración de modelos de lenguaje grandes.

Shlok Mishra, Tsung-Yu Lin, Linda Wang + 23 more2026-02-20🤖 cs.AI

HS-3D-NeRF: 3D Surface and Hyperspectral Reconstruction From Stationary Hyperspectral Images Using Multi-Channel NeRFs

Este artículo presenta HSI-SC-NeRF, un marco de redes neuronales de campos radiantes (NeRF) de múltiples canales diseñado para la reconstrucción 3D y espectral de productos agrícolas mediante una cámara estacionaria y un objeto rotatorio, superando las limitaciones de hardware de los sistemas tradicionales para su integración en flujos de trabajo automatizados de inspección postcosecha.

Kibon Ku, Talukder Z. Jubery, Adarsh Krishnamurthy + 1 more2026-02-20💻 cs

Amber-Image: Efficient Compression of Large-Scale Diffusion Transformers

El artículo presenta Amber-Image, un marco de compresión eficiente que transforma el modelo Qwen-Image de 60 capas en versiones ligeras de 10B y 6B parámetros mediante poda sensible al tiempo y destilación, logrando una reducción del 70% en parámetros y un entrenamiento de bajo costo sin necesidad de ingeniería de datos a gran escala, manteniendo al mismo tiempo una alta fidelidad de síntesis y rendimiento en la generación de texto.

Chaojie Yang, Tian Li, Yue Zhang + 1 more2026-02-20💻 cs

Cholec80-port: A Geometrically Consistent Trocar Port Segmentation Dataset for Robust Surgical Scene Understanding

Este trabajo presenta Cholec80-port, un conjunto de datos de segmentación de puertos de trocar con consistencia geométrica y un procedimiento estandarizado que excluye el lumen central, demostrando que este enfoque mejora significativamente la robustez en tareas de comprensión de escenas quirúrgicas más allá del simple aumento del tamaño del conjunto de datos.

Shunsuke Kikuchi, Atsushi Kouno, Hiroki Matsuzaki2026-02-20💻 cs

Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression

El artículo introduce la teoría de "bloqueo de signos", que demuestra que los signos de los pesos en modelos comprimidos permanecen mayoritariamente fijos desde la inicialización debido a la rareza de cruces cercanos a cero, y propone métodos de inicialización y regularización para reducir aún más la tasa de cambios de signo, mitigando así el cuello de botella en la compresión sub-bit.

Akira Sakai, Yuma Ichikawa2026-02-20💬 cs.CL

Benchmarking the Effects of Object Pose Estimation and Reconstruction on Robotic Grasping Success

Este artículo presenta un nuevo benchmark basado en física que evalúa cómo la calidad de la reconstrucción 3D y la estimación de pose afectan el éxito del agarre robótico, revelando que, aunque los artefactos de reconstrucción reducen los candidatos de agarre, el error espacial de la pose es el factor dominante en el éxito de la manipulación.

Varun Burde, Pavel Burget, Torsten Sattler2026-02-20💻 cs

3D Scene Rendering with Multimodal Gaussian Splatting

Este artículo presenta un marco multimodal que integra sensores de radiofrecuencia, como el radar automotriz, con la técnica de Gaussian Splatting para lograr una reconstrucción y renderizado 3D más robusto y eficiente frente a condiciones adversas de iluminación, clima u oclusiones, permitiendo una inicialización precisa de la escena a partir de mediciones de profundidad escasas.

Chi-Shiang Gau, Konstantinos D. Polyzos, Athanasios Bacharis + 2 more2026-02-20🤖 cs.AI