cs.CV artículos | Gist.Science

DDiT: Dynamic Patch Scheduling for Efficient Diffusion Transformers

El artículo propone DDiT, una estrategia de tokenización dinámica que ajusta el tamaño de los parches según la complejidad del contenido y el paso de tiempo durante la inferencia, logrando aceleraciones significativas en modelos DiT sin comprometer la calidad de generación.

Dahye Kim, Deepti Ghadiyaram, Raghudeep Gadde2026-02-20🤖 cs.AI

Characterizing the Predictive Impact of Modalities with Supervised Latent-Variable Modeling

El trabajo presenta PRIMO, un modelo de variables latentes supervisado que imputa modalidades faltantes en datos multimodales incompletos para cuantificar su impacto predictivo a nivel de instancia y mantener un rendimiento comparable a los enfoques tradicionales tanto en escenarios con datos completos como parciales.

Divyam Madaan, Sumit Chopra, Kyunghyun Cho2026-02-20💬 cs.CL

Patch-Based Spatial Authorship Attribution in Human-Robot Collaborative Paintings

Este artículo presenta un marco basado en parches que logra una alta precisión en la atribución de autoría espacial en pinturas colaborativas humano-robot, utilizando entropía condicional para cuantificar la superposición estilística y ofrecer una solución eficiente en datos para contextos creativos con IA.

Eric Chen, Patricia Alves-Oliveira2026-02-20💻 cs

PartRAG: Retrieval-Augmented Part-Level 3D Generation and Editing

PartRAG es un marco de generación y edición 3D a nivel de partes que utiliza recuperación aumentada y un módulo de contraste jerárquico para integrar una base de datos externa de partes, mejorando la consistencia multivista, la fidelidad estructural y permitiendo ediciones precisas sin regenerar todo el objeto.

Peize Li, Zeyu Zhang, Hao Tang2026-02-20💻 cs

Amber-Image: Efficient Compression of Large-Scale Diffusion Transformers

El artículo presenta Amber-Image, un marco de compresión eficiente que transforma el modelo Qwen-Image de 60 capas en versiones ligeras de 10B y 6B parámetros mediante poda sensible al tiempo y destilación, logrando una reducción del 70% en parámetros y un entrenamiento de bajo costo sin necesidad de ingeniería de datos a gran escala, manteniendo al mismo tiempo una alta fidelidad de síntesis y rendimiento en la generación de texto.

Chaojie Yang, Tian Li, Yue Zhang + 1 more2026-02-20💻 cs

Cholec80-port: A Geometrically Consistent Trocar Port Segmentation Dataset for Robust Surgical Scene Understanding

Este trabajo presenta Cholec80-port, un conjunto de datos de segmentación de puertos de trocar con consistencia geométrica y un procedimiento estandarizado que excluye el lumen central, demostrando que este enfoque mejora significativamente la robustez en tareas de comprensión de escenas quirúrgicas más allá del simple aumento del tamaño del conjunto de datos.

Shunsuke Kikuchi, Atsushi Kouno, Hiroki Matsuzaki2026-02-20💻 cs

Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression

El artículo introduce la teoría de "bloqueo de signos", que demuestra que los signos de los pesos en modelos comprimidos permanecen mayoritariamente fijos desde la inicialización debido a la rareza de cruces cercanos a cero, y propone métodos de inicialización y regularización para reducir aún más la tasa de cambios de signo, mitigando así el cuello de botella en la compresión sub-bit.

Akira Sakai, Yuma Ichikawa2026-02-20💬 cs.CL

ComptonUNet: A Deep Learning Model for GRB Localization with Compton Cameras under Noisy and Low-Statistic Conditions

El artículo presenta ComptonUNet, un modelo híbrido de aprendizaje profundo que mejora significativamente la localización de estallidos de rayos gamma en condiciones de baja estadística y alto ruido de fondo al combinar la eficiencia estadística con capacidades de eliminación de ruido.

Shogo Sato, Kazuo Tanaka, Shojun Ogasawara + 4 more2026-02-20🔭 astro-ph

Benchmarking the Effects of Object Pose Estimation and Reconstruction on Robotic Grasping Success

Este artículo presenta un nuevo benchmark basado en física que evalúa cómo la calidad de la reconstrucción 3D y la estimación de pose afectan el éxito del agarre robótico, revelando que, aunque los artefactos de reconstrucción reducen los candidatos de agarre, el error espacial de la pose es el factor dominante en el éxito de la manipulación.

Varun Burde, Pavel Burget, Torsten Sattler2026-02-20💻 cs

3D Scene Rendering with Multimodal Gaussian Splatting

Este artículo presenta un marco multimodal que integra sensores de radiofrecuencia, como el radar automotriz, con la técnica de Gaussian Splatting para lograr una reconstrucción y renderizado 3D más robusto y eficiente frente a condiciones adversas de iluminación, clima u oclusiones, permitiendo una inicialización precisa de la escena a partir de mediciones de profundidad escasas.

Chi-Shiang Gau, Konstantinos D. Polyzos, Athanasios Bacharis + 2 more2026-02-20🤖 cs.AI

B $^3$ -Seg: Camera-Free, Training-Free 3DGS Segmentation via Analytic EIG and Beta-Bernoulli Bayesian Updates

El artículo presenta B $^3$ -Seg, un método rápido y sin entrenamiento para la segmentación interactiva de 3DGS que utiliza actualizaciones bayesianas Beta-Bernoulli y ganancia de información analítica para lograr una selección óptima de vistas sin necesidad de cámaras predefinidas ni etiquetas de referencia.

Hiromichi Kamata, Samuel Arthur Munro, Fuminori Homma2026-02-20💻 cs

BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning

El artículo presenta BadCLIP++, un marco unificado que supera los desafíos de sigilo y persistencia en los ataques de puerta trasera contra modelos de aprendizaje contrastivo multimodal mediante un micro-gatillo QR de fusión semántica y técnicas de estabilización de parámetros, logrando una tasa de éxito del 99,99% con una inyección de datos maliciosos de solo el 0,3% y manteniendo su eficacia frente a múltiples defensas y ajustes finos.

Siyuan Liang, Yongcheng Jing, Yingjie Wang + 3 more2026-02-20💻 cs

NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting

El artículo presenta NRGS-SLAM, un sistema de SLAM monoculo no rígido para endoscopia basado en la representación 3D Gaussian Splatting que resuelve la ambigüedad entre el movimiento de la cámara y la deformación de los tejidos mediante un mapa de Gaussiana sensible a la deformación, logrando una estimación de pose más precisa y reconstrucciones de mayor calidad que los métodos actuales.

Jiwei Shan, Zeyu Cai, Yirui Li + 5 more2026-02-20💻 cs

Selective Training for Large Vision Language Models via Visual Information Gain

Este trabajo introduce la Ganancia de Información Visual (VIG), una métrica basada en la perplejidad que cuantifica la utilidad de la entrada visual para guiar un esquema de entrenamiento selectivo en Modelos Grandes de Visión y Lenguaje, mejorando así la fundamentación visual y reduciendo el sesgo lingüístico con menos datos de supervisión.

Seulbi Lee, Sangheum Hwang2026-02-20💻 cs

Texo: Formula Recognition within 20M Parameters

El artículo presenta Texo, un modelo minimalista de reconocimiento de fórmulas con solo 20 millones de parámetros que, gracias a un diseño eficiente y técnicas de destilación, alcanza un rendimiento comparable al de los modelos más avanzados reduciendo su tamaño hasta un 80% y permitiendo su ejecución en tiempo real en hardware de consumo.

Sicheng Mao2026-02-20🤖 cs.AI

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

El artículo presenta EntropyPrune, un marco de poda de tokens visuales para modelos de lenguaje grandes multimodales que utiliza la entropía matricial para identificar una capa de colapso de entropía y eliminar tokens redundantes de manera eficiente, logrando una reducción significativa de costos computacionales sin sacrificar el rendimiento.

Yahong Wang, Juncheng Wu, Zhangkai Ni + 6 more2026-02-20💻 cs

GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation

Este trabajo presenta GASS, un método que mejora la diversidad en la generación de imágenes a partir de texto mediante un muestreo esférico consciente de la geometría que controla explícitamente las variaciones dependientes e independientes del prompt en los incrustamientos de CLIP, logrando resultados diversos sin comprometer la fidelidad ni la alineación semántica.

Ye Zhu, Kaleb S. Newman, Johannes F. Lutzeyer + 3 more2026-02-20💻 cs

HiMAP: History-aware Map-occupancy Prediction with Fallback

HiMAP es un marco de predicción de trayectorias sin seguimiento que utiliza mapas de ocupación históricos para generar pronósticos precisos y robustos en vehículos autónomos, incluso cuando fallan los sistemas de rastreo de identidad.

Yiming Xu, Yi Yang, Hao Cheng + 1 more2026-02-20💻 cs

Inferring Height from Earth Embeddings: First insights using Google AlphaEarth

Este estudio demuestra que los *Earth Embeddings* de Google AlphaEarth, combinados con arquitecturas de redes neuronales convolucionales como U-Net++, permiten inferir con gran precisión la altura superficial regional, aunque persisten desafíos de generalización y sesgo al transferir los modelos a nuevas distribuciones de datos.

Alireza Hamoudzadeh, Valeria Belloni, Roberta Ravanelli2026-02-20💻 cs

A Multi-modal Detection System for Infrastructure-based Freight Signal Priority

Este artículo presenta y evalúa un sistema de detección multimodal basado en infraestructura que integra LiDAR y cámaras con seguimiento Kalman para monitorear con precisión el movimiento de vehículos de carga y habilitar estrategias efectivas de prioridad en semáforos.

Ziyan Zhang, Chuheng Wei, Xuanpeng Zhao + 6 more2026-02-20⚡ eess

← Anterior Siguiente →

cs.CV