Mitigating Pretraining-Induced Attention Asymmetry in 2D+ Electron Microscopy Image Segmentation

Este trabajo demuestra que los modelos preentrenados en imágenes RGB introducen un sesgo de atención asimétrica en la segmentación de imágenes de microscopía electrónica 2D+ debido a la asignación desigual de importancia a las capas vecinas, y propone una inicialización uniforme de los canales que restaura la simetría en la atribución de características sin comprometer la precisión de la segmentación.

Zsófia Molnár, Gergely Szabó, András Horváth2026-02-17💻 cs

OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

OmniEarth-Bench es el primer benchmark multimodal que evalúa holísticamente las seis esferas de la Tierra y sus interacciones mediante 109 tareas expertas, revelando que los modelos de lenguaje multimodal más avanzados actuales presentan brechas significativas en su capacidad cognitiva para comprender los sistemas terrestres.

Fengxiang Wang, Mingshuo Chen, Xuming He + 15 more2026-02-17🤖 cs.LG

Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

El paper presenta AliTok, un nuevo tokenizador alineado que resuelve la desincronización entre las dependencias bidireccionales de las imágenes y la naturaleza unidireccional de los modelos autoregresivos, permitiendo que arquitecturas ligeras generen imágenes de alta fidelidad en ImageNet con una velocidad de muestreo diez veces superior a los métodos de difusión actuales.

Pingyu Wu, Kai Zhu, Yu Liu + 6 more2026-02-17💻 cs

Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance

Este trabajo presenta Stretch-and-Squeeze (SnS), un marco de optimización sin gradientes que caracteriza sistemáticamente las transformaciones invariantes y la sensibilidad adversaria en sistemas visuales biológicos y artificiales, revelando cómo la invariancia se manifiesta de manera distinta según la profundidad de la red y afectando la interpretabilidad humana de las representaciones.

Lorenzo Tausani, Paolo Muratore, Morgan B. Talbot + 3 more2026-02-17💻 cs

HMSViT: A Hierarchical Masked Self-Supervised Vision Transformer for Corneal Nerve Segmentation and Diabetic Neuropathy Diagnosis

El artículo presenta HMSViT, un transformador de visión auto-supervisado jerárquico y enmascarado que logra un rendimiento superior en la segmentación de nervios corneales y el diagnóstico de neuropatía diabética mediante la extracción eficiente de características multiescala y un marco de aprendizaje auto-supervisado que reduce la dependencia de datos etiquetados.

Xin Zhang, Liangxiu Han, Yue Shi + 4 more2026-02-17💻 cs

GelSLAM: A Real-time, High-Fidelity, and Robust 3D Tactile SLAM System

El artículo presenta GelSLAM, un sistema de SLAM 3D en tiempo real que utiliza exclusivamente sensores táctiles para estimar con alta precisión la pose y reconstruir la forma de objetos durante la manipulación, superando las limitaciones de los métodos visuales al ofrecer una percepción espacial global y robusta incluso en objetos de baja textura.

Hung-Jui Huang, Mohammad Amin Mirzaee, Michael Kaess + 1 more2026-02-17💻 cs