Amber-Image: Efficient Compression of Large-Scale Diffusion Transformers

El artículo presenta Amber-Image, un marco de compresión eficiente que transforma el modelo Qwen-Image de 60 capas en versiones ligeras de 10B y 6B parámetros mediante poda sensible al tiempo y destilación, logrando una reducción del 70% en parámetros y un entrenamiento de bajo costo sin necesidad de ingeniería de datos a gran escala, manteniendo al mismo tiempo una alta fidelidad de síntesis y rendimiento en la generación de texto.

Chaojie Yang, Tian Li, Yue Zhang + 1 more2026-02-20💻 cs

Cholec80-port: A Geometrically Consistent Trocar Port Segmentation Dataset for Robust Surgical Scene Understanding

Este trabajo presenta Cholec80-port, un conjunto de datos de segmentación de puertos de trocar con consistencia geométrica y un procedimiento estandarizado que excluye el lumen central, demostrando que este enfoque mejora significativamente la robustez en tareas de comprensión de escenas quirúrgicas más allá del simple aumento del tamaño del conjunto de datos.

Shunsuke Kikuchi, Atsushi Kouno, Hiroki Matsuzaki2026-02-20💻 cs

Sign Lock-In: Randomly Initialized Weight Signs Persist and Bottleneck Sub-Bit Model Compression

El artículo introduce la teoría de "bloqueo de signos", que demuestra que los signos de los pesos en modelos comprimidos permanecen mayoritariamente fijos desde la inicialización debido a la rareza de cruces cercanos a cero, y propone métodos de inicialización y regularización para reducir aún más la tasa de cambios de signo, mitigando así el cuello de botella en la compresión sub-bit.

Akira Sakai, Yuma Ichikawa2026-02-20💬 cs.CL

Benchmarking the Effects of Object Pose Estimation and Reconstruction on Robotic Grasping Success

Este artículo presenta un nuevo benchmark basado en física que evalúa cómo la calidad de la reconstrucción 3D y la estimación de pose afectan el éxito del agarre robótico, revelando que, aunque los artefactos de reconstrucción reducen los candidatos de agarre, el error espacial de la pose es el factor dominante en el éxito de la manipulación.

Varun Burde, Pavel Burget, Torsten Sattler2026-02-20💻 cs

3D Scene Rendering with Multimodal Gaussian Splatting

Este artículo presenta un marco multimodal que integra sensores de radiofrecuencia, como el radar automotriz, con la técnica de Gaussian Splatting para lograr una reconstrucción y renderizado 3D más robusto y eficiente frente a condiciones adversas de iluminación, clima u oclusiones, permitiendo una inicialización precisa de la escena a partir de mediciones de profundidad escasas.

Chi-Shiang Gau, Konstantinos D. Polyzos, Athanasios Bacharis + 2 more2026-02-20🤖 cs.AI

BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning

El artículo presenta BadCLIP++, un marco unificado que supera los desafíos de sigilo y persistencia en los ataques de puerta trasera contra modelos de aprendizaje contrastivo multimodal mediante un micro-gatillo QR de fusión semántica y técnicas de estabilización de parámetros, logrando una tasa de éxito del 99,99% con una inyección de datos maliciosos de solo el 0,3% y manteniendo su eficacia frente a múltiples defensas y ajustes finos.

Siyuan Liang, Yongcheng Jing, Yingjie Wang + 3 more2026-02-20💻 cs

NRGS-SLAM: Monocular Non-Rigid SLAM for Endoscopy via Deformation-Aware 3D Gaussian Splatting

El artículo presenta NRGS-SLAM, un sistema de SLAM monoculo no rígido para endoscopia basado en la representación 3D Gaussian Splatting que resuelve la ambigüedad entre el movimiento de la cámara y la deformación de los tejidos mediante un mapa de Gaussiana sensible a la deformación, logrando una estimación de pose más precisa y reconstrucciones de mayor calidad que los métodos actuales.

Jiwei Shan, Zeyu Cai, Yirui Li + 5 more2026-02-20💻 cs

EntropyPrune: Matrix Entropy Guided Visual Token Pruning for Multimodal Large Language Models

El artículo presenta EntropyPrune, un marco de poda de tokens visuales para modelos de lenguaje grandes multimodales que utiliza la entropía matricial para identificar una capa de colapso de entropía y eliminar tokens redundantes de manera eficiente, logrando una reducción significativa de costos computacionales sin sacrificar el rendimiento.

Yahong Wang, Juncheng Wu, Zhangkai Ni + 6 more2026-02-20💻 cs

GASS: Geometry-Aware Spherical Sampling for Disentangled Diversity Enhancement in Text-to-Image Generation

Este trabajo presenta GASS, un método que mejora la diversidad en la generación de imágenes a partir de texto mediante un muestreo esférico consciente de la geometría que controla explícitamente las variaciones dependientes e independientes del prompt en los incrustamientos de CLIP, logrando resultados diversos sin comprometer la fidelidad ni la alineación semántica.

Ye Zhu, Kaleb S. Newman, Johannes F. Lutzeyer + 3 more2026-02-20💻 cs