cs.CV artículos | Gist.Science

Accelerating Large-Scale Dataset Distillation via Exploration-Exploitation Optimization

El artículo presenta E²D, un método de destilación de conjuntos de datos que supera la compensación entre precisión y eficiencia mediante una estrategia de dos fases de exploración y explotación, logrando resultados superiores al estado del arte en ImageNet-1K e ImageNet-21K con una velocidad significativamente mayor.

Muhammad J. Alahmadi, Peng Gao, Feiyi Wang + 1 more2026-02-20🤖 cs.AI

Intracoronary Optical Coherence Tomography Image Processing and Vessel Classification Using Machine Learning

Este artículo presenta un pipeline automatizado que utiliza técnicas de aprendizaje automático, como la extracción de características y clasificadores SVM y regresión logística, para lograr una segmentación y clasificación precisa de vasos sanguíneos en imágenes de tomografía de coherencia óptica intracoronaria con una precisión del 99,68%.

Amal Lahchim, Lambros Athanasiou2026-02-20🤖 cs.AI

Style-Aware Gloss Control for Generative Non-Photorealistic Rendering

Los autores proponen un modelo generativo no supervisado con un espacio latente jerárquico que desentrelaza el brillo del estilo artístico, permitiendo el control fino de estos factores en la síntesis de imágenes no fotorrealistas mediante un adaptador ligero conectado a un modelo de difusión latente.

Santiago Jimenez-Navarro, Belen Masia, Ana Serrano2026-02-20💻 cs

Three-dimensional Damage Visualization of Civil Structures via Gaussian Splatting-enabled Digital Twins

Este estudio presenta un método de gemelo digital habilitado por Splatting Gaussiano que supera las limitaciones de las técnicas tradicionales para visualizar daños en estructuras civiles en 3D, ofreciendo una reconstrucción eficiente, detallada y actualizable mediante una estrategia multiescala probada en un conjunto de datos sintético de post-sismo.

Shuo Wang, Shuo Wang, Xin Nie + 3 more2026-02-20💻 cs

Analytic Score Optimization for Multi Dimension Video Quality Assessment

Este artículo presenta UltraVQA, un dataset a gran escala de contenido generado por usuarios con anotaciones multidimensionales, e introduce la Optimización de Puntuación Analítica (ASO), un método de post-entrenamiento teóricamente fundamentado que supera a los modelos existentes al mejorar la precisión y la alineación con las preferencias humanas en la evaluación de calidad de video.

Boda Lin, Yongjie Zhu, Wenyu Qin + 2 more2026-02-20💻 cs

DODO: Discrete OCR Diffusion Models

El artículo presenta DODO, un modelo de visión-lingüística que utiliza difusión discreta por bloques para superar las limitaciones de velocidad de los modelos autoregresivos en la reconocimiento óptico de caracteres (OCR), logrando una inferencia hasta tres veces más rápida sin sacrificar la precisión.

Sean Man, Roy Ganz, Roi Ronen + 3 more2026-02-20💻 cs

StereoAdapter-2: Globally Structure-Consistent Underwater Stereo Depth Estimation

Este artículo presenta StereoAdapter-2, un marco de estimación de profundidad estéreo para entornos submarinos que reemplaza las actualizaciones convencionales basadas en GRU con un operador ConvSS2D de modelos de estado selectivo para lograr una propagación espacial eficiente de largo alcance, y que se complementa con la creación del dataset sintético UW-StereoDepth-80K, logrando un rendimiento de vanguardia en pruebas cero-shot y validación en plataformas reales.

Zeyu Ren, Xiang Li, Yiran Wang + 2 more2026-02-20💻 cs

SemCovNet: Towards Fair and Semantic Coverage-Aware Learning for Underrepresented Visual Concepts

El artículo presenta SemCovNet, un modelo innovador que mitiga el desequilibrio en la cobertura semántica (SCI) mediante la integración de mapas descriptores, modulación de atención y alineación de características para lograr una representación visual más justa y equitativa.

Sakib Ahammed, Xia Cui, Xinqi Fan + 2 more2026-02-20💻 cs

Xray-Visual Models: Scaling Vision models on Industry Scale Data

Xray-Visual es un modelo unificado de visión entrenado a escala industrial con datos de redes sociales que, mediante una arquitectura eficiente y un pipeline de entrenamiento de tres etapas, logra un rendimiento superior en clasificación de imágenes, comprensión de video y recuperación multimodal, mejorado aún más mediante la integración de modelos de lenguaje grandes.

Shlok Mishra, Tsung-Yu Lin, Linda Wang + 23 more2026-02-20🤖 cs.AI

HS-3D-NeRF: 3D Surface and Hyperspectral Reconstruction From Stationary Hyperspectral Images Using Multi-Channel NeRFs

Este artículo presenta HSI-SC-NeRF, un marco de redes neuronales de campos radiantes (NeRF) de múltiples canales diseñado para la reconstrucción 3D y espectral de productos agrícolas mediante una cámara estacionaria y un objeto rotatorio, superando las limitaciones de hardware de los sistemas tradicionales para su integración en flujos de trabajo automatizados de inspección postcosecha.

Kibon Ku, Talukder Z. Jubery, Adarsh Krishnamurthy + 1 more2026-02-20💻 cs

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

El artículo propone DDiT, una estrategia de tokenización dinámica que ajusta el tamaño de los parches según la complejidad del contenido y el paso de tiempo durante la inferencia, logrando aceleraciones significativas en modelos DiT sin comprometer la calidad de generación.

Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde2026-02-20🤖 cs.AI

Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling

El trabajo presenta PRIMO, un modelo de variables latentes supervisado que imputa modalidades faltantes en datos multimodales incompletos para cuantificar su impacto predictivo a nivel de instancia y mantener un rendimiento comparable a los enfoques tradicionales tanto en escenarios con datos completos como parciales.

Divyam Madaan, Sumit Chopra, Kyunghyun Cho2026-02-20💬 cs.CL

Patch-Based Spatial Authorship Attribution in Human-Robot Collaborative Paintings

Este artículo presenta un marco basado en parches que logra una alta precisión en la atribución de autoría espacial en pinturas colaborativas humano-robot, utilizando entropía condicional para cuantificar la superposición estilística y ofrecer una solución eficiente en datos para contextos creativos con IA.

Eric Chen, Patricia Alves-Oliveira2026-02-20💻 cs

PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

PartRAG es un marco de generación y edición 3D a nivel de partes que utiliza recuperación aumentada y un módulo de contraste jerárquico para integrar una base de datos externa de partes, mejorando la consistencia multivista, la fidelidad estructural y permitiendo ediciones precisas sin regenerar todo el objeto.

Peize Li, Zeyu Zhang, Hao Tang2026-02-20💻 cs

Amber-Image: Efficient Compression of Large-Scale Diffusion Transformers

El artículo presenta Amber-Image, un marco de compresión eficiente que transforma el modelo Qwen-Image de 60 capas en versiones ligeras de 10B y 6B parámetros mediante poda sensible al tiempo y destilación, logrando una reducción del 70% en parámetros y un entrenamiento de bajo costo sin necesidad de ingeniería de datos a gran escala, manteniendo al mismo tiempo una alta fidelidad de síntesis y rendimiento en la generación de texto.

Chaojie Yang, Tian Li, Yue Zhang + 1 more2026-02-20💻 cs

Cholec80-port: A Geometrically Consistent Trocar Port Segmentation Dataset for Robust Surgical Scene Understanding

Este trabajo presenta Cholec80-port, un conjunto de datos de segmentación de puertos de trocar con consistencia geométrica y un procedimiento estandarizado que excluye el lumen central, demostrando que este enfoque mejora significativamente la robustez en tareas de comprensión de escenas quirúrgicas más allá del simple aumento del tamaño del conjunto de datos.

Shunsuke Kikuchi, Atsushi Kouno, Hiroki Matsuzaki2026-02-20💻 cs

Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression

El artículo introduce la teoría de "bloqueo de signos", que demuestra que los signos de los pesos en modelos comprimidos permanecen mayoritariamente fijos desde la inicialización debido a la rareza de cruces cercanos a cero, y propone métodos de inicialización y regularización para reducir aún más la tasa de cambios de signo, mitigando así el cuello de botella en la compresión sub-bit.

Akira Sakai, Yuma Ichikawa2026-02-20💬 cs.CL

ComptonUNet: A Deep Learning Model for GRB Localization with Compton Cameras under Noisy and Low-Statistic Conditions

El artículo presenta ComptonUNet, un modelo híbrido de aprendizaje profundo que mejora significativamente la localización de estallidos de rayos gamma en condiciones de baja estadística y alto ruido de fondo al combinar la eficiencia estadística con capacidades de eliminación de ruido.

Shogo Sato, Kazuo Tanaka, Shojun Ogasawara + 4 more2026-02-20🔭 astro-ph

Benchmarking the Effects of Object Pose Estimation and Reconstruction on Robotic Grasping Success

Este artículo presenta un nuevo benchmark basado en física que evalúa cómo la calidad de la reconstrucción 3D y la estimación de pose afectan el éxito del agarre robótico, revelando que, aunque los artefactos de reconstrucción reducen los candidatos de agarre, el error espacial de la pose es el factor dominante en el éxito de la manipulación.

Varun Burde, Pavel Burget, Torsten Sattler2026-02-20💻 cs

3D Scene Rendering with Multimodal Gaussian Splatting

Este artículo presenta un marco multimodal que integra sensores de radiofrecuencia, como el radar automotriz, con la técnica de Gaussian Splatting para lograr una reconstrucción y renderizado 3D más robusto y eficiente frente a condiciones adversas de iluminación, clima u oclusiones, permitiendo una inicialización precisa de la escena a partir de mediciones de profundidad escasas.

Chi-Shiang Gau, Konstantinos D. Polyzos, Athanasios Bacharis + 2 more2026-02-20🤖 cs.AI

← Anterior Siguiente →