cs.CV artículos | Gist.Science

GaussianFormer3D: Multi-Modal Gaussian-based Semantic Occupancy Prediction with 3D Deformable Attention

El artículo presenta GaussianFormer3D, un marco de predicción de ocupación semántica 3D basado en Gaussianas que fusiona LiDAR y cámaras mediante atención deformable 3D, logrando un rendimiento de vanguardia con menor consumo de memoria y mayor eficiencia.

Lingjun Zhao, Sizhe Wei, James Hays + 1 more2026-02-17💻 cs

Single Image Reflection Separation via Dual Prior Interaction Transformer

Este artículo propone un marco de interacción de doble prior basado en un Transformer (DPIT) y una red de corrección lineal local (LLCN) para generar y fusionar eficazmente priores de transmisión y generales, logrando así un rendimiento superior en la separación de reflexiones en imágenes únicas.

Yue Huang, Tianle Hu, Yu Chen + 3 more2026-02-17🤖 cs.AI

Mitigating Pretraining-Induced Attention Asymmetry in 2D+ Electron Microscopy Image Segmentation

Este trabajo demuestra que los modelos preentrenados en imágenes RGB introducen un sesgo de atención asimétrica en la segmentación de imágenes de microscopía electrónica 2D+ debido a la asignación desigual de importancia a las capas vecinas, y propone una inicialización uniforme de los canales que restaura la simetría en la atribución de características sin comprometer la precisión de la segmentación.

Zsófia Molnár, Gergely Szabó, András Horváth2026-02-17💻 cs

RAVENEA: A Benchmark for Multimodal Retrieval-Augmented Visual Culture Understanding

El artículo presenta RAVENEA, un nuevo benchmark que integra documentos de Wikipedia para evaluar y mejorar la comprensión de la cultura visual en modelos de lenguaje y visión mediante la generación aumentada por recuperación (RAG), demostrando que esta aproximación supera significativamente a los modelos sin contexto cultural.

Jiaang Li, Yifei Yuan, Wenyan Li + 8 more2026-02-17💬 cs.CL

Grounding Bodily Awareness in Visual Representations for Efficient Policy Learning

Este trabajo presenta ICon, un método de aprendizaje contrastivo a nivel de token en Vision Transformers que genera representaciones visuales centradas en el agente al separar las señales del cuerpo del entorno, mejorando así el aprendizaje y la transferencia de políticas en tareas de manipulación robótica.

Junlin Wang, Zhiyun Lin2026-02-17🤖 cs.LG

OmniEarth-Bench: Towards Holistic Evaluation of Earth's Six Spheres and Cross-Spheres Interactions with Multimodal Observational Earth Data

OmniEarth-Bench es el primer benchmark multimodal que evalúa holísticamente las seis esferas de la Tierra y sus interacciones mediante 109 tareas expertas, revelando que los modelos de lenguaje multimodal más avanzados actuales presentan brechas significativas en su capacidad cognitiva para comprender los sistemas terrestres.

Fengxiang Wang, Mingshuo Chen, Xuming He + 15 more2026-02-17🤖 cs.LG

Multi-Spectral Gaussian Splatting with Neural Color Representation

El artículo presenta MS-Splatting, un marco innovador de *Gaussian Splatting* 3D que utiliza una representación neuronal de color para generar vistas nuevas multiespectrales consistentes sin necesidad de calibración cruzada, mejorando la calidad de renderizado y permitiendo aplicaciones como el cálculo de índices de vegetación.

Lukas Meyer, Josef Grün, Maximilian Weiherer + 3 more2026-02-17🤖 cs.AI

Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

El paper presenta AliTok, un nuevo tokenizador alineado que resuelve la desincronización entre las dependencias bidireccionales de las imágenes y la naturaleza unidireccional de los modelos autoregresivos, permitiendo que arquitecturas ligeras generen imágenes de alta fidelidad en ImageNet con una velocidad de muestreo diez veces superior a los métodos de difusión actuales.

Pingyu Wu, Kai Zhu, Yu Liu + 6 more2026-02-17💻 cs

Stretching Beyond the Obvious: A Gradient-Free Framework to Unveil the Hidden Landscape of Visual Invariance

Este trabajo presenta Stretch-and-Squeeze (SnS), un marco de optimización sin gradientes que caracteriza sistemáticamente las transformaciones invariantes y la sensibilidad adversaria en sistemas visuales biológicos y artificiales, revelando cómo la invariancia se manifiesta de manera distinta según la profundidad de la red y afectando la interpretabilidad humana de las representaciones.

Lorenzo Tausani, Paolo Muratore, Morgan B. Talbot + 3 more2026-02-17💻 cs

HMSViT: A Hierarchical Masked Self-Supervised Vision Transformer for Corneal Nerve Segmentation and Diabetic Neuropathy Diagnosis

El artículo presenta HMSViT, un transformador de visión auto-supervisado jerárquico y enmascarado que logra un rendimiento superior en la segmentación de nervios corneales y el diagnóstico de neuropatía diabética mediante la extracción eficiente de características multiescala y un marco de aprendizaje auto-supervisado que reduce la dependencia de datos etiquetados.

Xin Zhang, Liangxiu Han, Yue Shi + 4 more2026-02-17💻 cs

An Agentic System for Rare Disease Diagnosis with Traceable Reasoning

Este artículo presenta DeepRare, un sistema multiagente impulsado por modelos de lenguaje grande que mejora el diagnóstico de enfermedades raras mediante el procesamiento de datos clínicos heterogéneos para generar hipótesis diagnósticas precisas y trazables, superando significativamente a los métodos existentes en diversas evaluaciones.

Weike Zhao, Chaoyi Wu, Yanjie Fan + 10 more2026-02-17💬 cs.CL

SPATIA: Multimodal Generation and Prediction of Spatial Cell Phenotypes

El artículo presenta SPATIA, un modelo generativo y predictivo multimodal que integra morfología, expresión génica y contexto espacial para generar representaciones unificadas de células, predecir fenotipos bajo perturbaciones y superar a los modelos actuales en tareas de generación, anotación e imputación de datos espaciales.

Zhenglun Kong, Mufan Qiu, John Boesen + 5 more2026-02-17🧬 q-bio

Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning

Este trabajo presenta "Recall", un nuevo marco de ataque adversarial multi-modal que utiliza imágenes de referencia para comprometer la robustez de los modelos de generación de imágenes tras su olvido (unlearning), revelando vulnerabilidades críticas en las técnicas actuales de eliminación de conceptos.

Renyang Liu, Guanlin Li, Tianwei Zhang + 1 more2026-02-17🤖 cs.LG

Efficient Dual-domain Image Dehazing with Haze Prior Perception

El artículo presenta DGFDNet, una red de desvanecimiento de imágenes dual-domain que integra priors de canal oscuro para la modulación de frecuencia y mecanismos de agregación enmascarada, logrando un rendimiento superior y eficiente en comparación con los métodos existentes.

Lirong Zheng, Yanshan Li, Rui Yu + 1 more2026-02-17💻 cs

U-MARVEL: Unveiling Key Factors for Universal Multimodal Retrieval via Embedding Learning with MLLMs

El artículo presenta U-MARVEL, un marco unificado que identifica factores clave en el aprendizaje de incrustaciones mediante MLLMs para la recuperación multimodal universal, logrando un rendimiento superior al estado del arte en diversas tareas y benchmarks.

Xiaojie Li, Chu Li, Shi-Zhe Chen + 1 more2026-02-17💻 cs

Latent Denoising Makes Good Tokenizers

El artículo presenta el Latent Denoising Tokenizer (l-DeTok), un nuevo tipo de tokenizador que alinea sus representaciones latentes con el objetivo de denoising de los modelos generativos, logrando así una mejora consistente en la calidad de la generación de imágenes en comparación con los tokenizadores anteriores.

Jiawei Yang, Tianhong Li, Lijie Fan + 2 more2026-02-17💻 cs

3DRot: Rediscovering the Missing Primitive for RGB-Based 3D Augmentation

Este artículo presenta 3DRot, una técnica de aumento de datos plug-and-play que realiza rotaciones y reflexiones geométricamente consistentes en imágenes RGB sin requerir profundidad de la escena, mejorando significativamente el rendimiento en tareas de percepción 3D como la detección y estimación de profundidad.

Shitian Yang, Deyu Li, Xiaoke Jiang + 1 more2026-02-17🤖 cs.LG

Hyperspectral vs. RGB for Pedestrian Segmentation in Urban Driving Scenes: A Comparative Study

Este estudio demuestra que la selección óptima de bandas espectrales en imágenes hiperespectrales mejora significativamente la segmentación de peatones y motociclistas en escenarios urbanos en comparación con las imágenes RGB, ofreciendo una solución más segura para los sistemas de percepción automotriz.

Jiarong Li, Imad Ali Shah, Enda Ward + 3 more2026-02-17💻 cs

GelSLAM: A Real-time, High-Fidelity, and Robust 3D Tactile SLAM System

El artículo presenta GelSLAM, un sistema de SLAM 3D en tiempo real que utiliza exclusivamente sensores táctiles para estimar con alta precisión la pose y reconstruir la forma de objetos durante la manipulación, superando las limitaciones de los métodos visuales al ofrecer una percepción espacial global y robusta incluso en objetos de baja textura.

Hung-Jui Huang, Mohammad Amin Mirzaee, Michael Kaess + 1 more2026-02-17💻 cs

CellINR: Implicitly Overcoming Photo-induced Artifacts in 4D Live Fluorescence Microscopy

El marco CellINR utiliza representaciones neuronales implícitas para eliminar eficazmente los artefactos inducidos por la luz y restaurar la continuidad estructural en la microscopía de fluorescencia en vivo 4D, ofreciendo además un nuevo conjunto de datos emparejado para la evaluación de este tipo de reconstrucciones.

Cunmin Zhao, Ziyuan Luo, Guoye Guan + 4 more2026-02-17⚡ eess

← Anterior Siguiente →