cs.CV artículos | Gist.Science

OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence

El artículo presenta OneVision-Encoder, un modelo que alinea la arquitectura de visión con los principios de compresión de los códecs mediante una escasez de parches coordinada, logrando así una mayor eficiencia y precisión en la comprensión multimodal al centrarse exclusivamente en las regiones de alta entropía de la información.

Feilong Tang, Xiang An, Yunyao Yan + 16 more2026-02-27💻 cs

HLGFA: High-Low Resolution Guided Feature Alignment for Unsupervised Anomaly Detection

El artículo presenta HLGFA, un marco de alineación de características guiado por resoluciones alta y baja que detecta anomalías industriales sin supervisión al modelar la consistencia entre representaciones de diferentes resoluciones, logrando un rendimiento superior en benchmarks como MVTec AD sin depender de la reconstrucción a nivel de píxel.

Han Zhou, Yuxuan Gao, Yinchao Du + 1 more2026-02-27💻 cs

GigaBrain-0.5M*: a VLA That Learns From World Model-Based Reinforcement Learning

El artículo presenta GigaBrain-0.5M*, un modelo de visión-lenguaje-acción que supera las limitaciones de los enfoques tradicionales al integrar aprendizaje por refuerzo basado en modelos del mundo mediante RAMP, logrando mejoras significativas del 30% en tareas complejas y una ejecución robusta a largo plazo en entornos reales.

GigaBrain Team, Boyuan Wang, Bohan Li + 23 more2026-02-27💻 cs

PCReg-Net: Progressive Contrast-Guided Registration for Cross-Domain Image Alignment

El artículo presenta PCReg-Net, un marco de registro de imágenes progresivo y guiado por contraste que supera los desafíos de la alineación entre dominios heterogéneos mediante una alineación de lo grueso a lo fino con cuatro módulos ligeros, logrando un rendimiento en tiempo real y una alta fidelidad en benchmarks de imágenes retinianas y microscópicas.

Jiahao Qin2026-02-27🤖 cs.AI

Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening

Este estudio presenta una evaluación sistemática a gran escala de siete modelos fundacionales de video para la detección remota de la enfermedad de Parkinson, demostrando que el rendimiento varía significativamente según la arquitectura y la tarea clínica específica, con resultados que van desde un 76,4 % hasta un 85,3 % de AUC y que subrayan la necesidad de calibrar los modelos y combinar múltiples tareas para mejorar la sensibilidad.

Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader + 11 more2026-02-27💻 cs

Index Light, Reason Deep: Deferred Visual Ingestion for Visual-Dense Document Question Answering

Este artículo presenta el marco DVI, que mejora sustancialmente la respuesta a preguntas en documentos técnicos visualmente densos al eliminar la ingestión visual previa y utilizar un índice jerárquico automático basado en la estructura del documento, logrando así una precisión significativamente superior a los métodos tradicionales de recuperación por similitud de embeddings.

Tao Xu2026-02-27💬 cs.CL

Depth from Defocus via Direct Optimization

Este artículo demuestra que es factible recuperar la profundidad a partir de imágenes desenfocadas mediante un enfoque de optimización global basado en minimización alternada, el cual combina optimización convexa y búsqueda paralela en cuadrícula para lograr resultados superiores en resolución a los métodos de aprendizaje profundo actuales.

Holly Jackson, Caleb Adams, Ignacio Lopez-Francos + 1 more2026-02-27💻 cs

Compact Hadamard Latent Codes for Efficient Spectral Rendering

Este artículo presenta códigos latentes de Hadamard, una representación compacta que permite el renderizado espectral eficiente mediante operaciones RGB estándar y una decodificación posterior, logrando una alta precisión de color con un coste computacional significativamente menor que los métodos espectrales tradicionales.

Jiaqi Yu, Dar'ya Guarnera, Giuseppe Claudio Guarnera2026-02-27💻 cs

Automated Disentangling Analysis of Skin Colour for Lesion Images

Este trabajo propone un marco de desentrelazamiento de color de piel que, mediante la descomposición de factores ambientales e intrínsecos en un espacio latente estructurado y técnicas de decoloración aleatoria, permite la edición contrapuntual y la normalización de imágenes dermatológicas para mejorar la equidad y el rendimiento en la clasificación de lesiones cutáneas.

Wenbo Yang, Eman Rezk, Walaa M. Moursi + 1 more2026-02-27⚡ eess

FUSAR-GPT : A Spatiotemporal Feature-Embedded and Two-Stage Decoupled Visual Language Model for SAR Imagery

El artículo presenta FUSAR-GPT, un modelo de lenguaje visual diseñado específicamente para imágenes SAR que, mediante la integración de características espacio-temporales y una estrategia de ajuste fino en dos etapas, supera significativamente a los modelos existentes en la interpretación inteligente de datos de radar de apertura sintética.

Xiaokun Zhang, Yi Yang, Ziqi Ye + 6 more2026-02-27🤖 cs.AI

DICArt: Advancing Category-level Articulated Object Pose Estimation in Discrete State-Spaces

El artículo presenta DICArt, un marco novedoso que aborda la estimación de pose de objetos articulados mediante un proceso de difusión condicional en espacios discretos, integrando un decisor de flujo dinámico y una estrategia de acoplamiento cinemático jerárquico para superar las limitaciones de los métodos continuos existentes y lograr una estimación de pose 6D más robusta y precisa.

Li Zhang, Mingyu Mei, Ailing Wang + 7 more2026-02-27🤖 cs.AI

TextPecker: Rewarding Structural Anomaly Quantification for Enhancing Visual Text Rendering

El artículo presenta TextPecker, una estrategia de aprendizaje por refuerzo plug-and-play que supera las limitaciones de los modelos actuales para detectar anomalías estructurales en el texto generado, logrando mejoras significativas en la fidelidad estructural y la alineación semántica del renderizado visual de texto.

Hanshen Zhu, Yuliang Liu, Xuecheng Wu + 7 more2026-02-27💻 cs

NoRD: A Data-Efficient Vision-Language-Action Model that Drives without Reasoning

El trabajo presenta NoRD, un modelo de visión-lenguaje-acción para la conducción autónoma que logra un rendimiento competitivo utilizando menos del 60% de los datos de entrenamiento y sin anotaciones de razonamiento, superando las limitaciones de la optimización estándar mediante el algoritmo Dr. GRPO para mitigar el sesgo de dificultad.

Ishaan Rawal, Shubh Gupta, Yihan Hu + 1 more2026-02-27🤖 cs.AI

Enhancing Multi-Modal LLMs Reasoning via Difficulty-Aware Group Normalization

El artículo presenta Durian, un método de normalización grupal consciente de la dificultad que mejora el razonamiento de los modelos de lenguaje multimodal al reagrupar muestras según su complejidad perceptiva y la incertidumbre de razonamiento, mitigando así la inestabilidad causada por muestras extremas en la optimización de políticas.

Jinghan Li, Junfeng Fang, Jinda Lu + 5 more2026-02-27💻 cs

EndoDDC: Learning Sparse to Dense Reconstruction for Endoscopic Robotic Navigation via Diffusion Depth Completion

El artículo presenta EndoDDC, un método basado en modelos de difusión que integra imágenes, profundidad dispersa y características de gradiente para mejorar la reconstrucción de profundidad en entornos endoscópicos con texturas débiles y reflejos de luz, superando a los modelos actuales en precisión y robustez.

Yinheng Lin, Yiming Huang, Beilei Cui + 4 more2026-02-27💻 cs

CoLoGen: Progressive Learning of Concept-Localization Duality for Unified Image Generation

El artículo presenta CoLoGen, un marco unificado de difusión que resuelve el conflicto de representaciones entre la comprensión conceptual y la precisión espacial mediante un aprendizaje progresivo y un módulo de tejido de representaciones para generar imágenes bajo diversas condiciones.

YuXin Song, Yu Lu, Haoyuan Sun + 6 more2026-02-27💻 cs

Solaris: Building a Multiplayer Video World Model in Minecraft

El artículo presenta Solaris, un modelo de mundo de video para Minecraft que simula observaciones multi-voz consistentes mediante un nuevo sistema de recolección de datos automatizado y una estrategia de entrenamiento escalonada que supera a los modelos existentes limitados a una sola perspectiva.

Georgy Savva, Oscar Michel, Daohan Lu + 6 more2026-02-27💻 cs

Adaptive Prefiltering for High-Dimensional Similarity Search: A Frequency-Aware Approach

Este artículo presenta un marco de prefiltrado adaptativo que optimiza la búsqueda de similitud en espacios de alta dimensión asignando presupuestos computacionales dinámicos basados en patrones de frecuencia de consultas y coherencia de clusters, logrando una reducción del 20,4% en cálculos de distancia sin comprometer la latencia ni la precisión.

Teodor-Ioan Calin2026-02-27💻 cs

CrossLLM-Mamba: Multimodal State Space Fusion of LLMs for RNA Interaction Prediction

El artículo presenta CrossLLM-Mamba, un marco innovador que utiliza codificadores bidireccionales Mamba para reformular la predicción de interacciones de ARN como un problema de alineación de espacio de estados, logrando un rendimiento superior al estado del arte en la predicción de interacciones multimodales de ARN con complejidad computacional lineal.

Rabeya Tus Sadia, Qiang Ye, Qiang Cheng2026-02-27🧬 q-bio

Enabling clinical use of foundation models in histopathology

Este estudio demuestra que la introducción de funciones de pérdida de robustez durante el entrenamiento de modelos específicos derivados de modelos fundamentales de histopatología reduce la sensibilidad a la variabilidad técnica y mejora la precisión, permitiendo así su aplicación clínica sin necesidad de reentrenar los modelos fundamentales.

Audun L. Henriksen, Ole-Johan Skrede, Lisa van der Schee + 31 more2026-02-27🤖 cs.AI

← Anterior Siguiente →