cs.CV artículos | Gist.Science

Ecological mapping with geospatial foundation models

Este estudio demuestra que los modelos fundacionales de observación terrestre, como Prithvi-EO-2.0 y TerraMind, superan consistentemente a las arquitecturas tradicionales en tareas ecológicas clave, aunque su rendimiento óptimo depende de la alineación de los datos, la resolución de las imágenes y la precisión de las etiquetas.

Craig Mahlasi, Gciniwe S. Baloyi, Zaheed Gaffoor + 6 more2026-02-25💻 cs

DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving

El artículo presenta DriveMamba, un modelo de espacio de estado escalable centrado en tareas que utiliza un decodificador unificado Mamba con complejidad lineal y un escaneo bidireccional guiado por trayectorias para superar las limitaciones de eficiencia y pérdida de información de los sistemas de conducción autónoma de extremo a extremo existentes, demostrando un rendimiento superior en conjuntos de datos como nuScenes y Bench2Drive.

Haisheng Su, Wei Wu, Feixiang Song + 3 more2026-02-25💻 cs

Sim2Radar: Toward Bridging the Radar Sim-to-Real Gap with VLM-Guided Scene Reconstruction

Sim2Radar es un marco de trabajo que cierra la brecha entre la simulación y la realidad en la percepción por radar de ondas milimétricas al sintetizar datos de entrenamiento a partir de imágenes RGB utilizando reconstrucción de escenas guiada por visión artificial y modelos físicos, logrando así mejoras significativas en la detección de objetos 3D mediante aprendizaje por transferencia.

Emily Bejerano, Federico Tondolo, Ayaan Qayyum + 2 more2026-02-25🤖 cs.AI

Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Este trabajo presenta HERO, un nuevo paradigma que combina modelos de visión de gran vocabulario con un control preciso de extremo final basado en simulación para permitir a los robots humanoides manipular objetos arbitrarios en entornos del mundo real con una generalización superior.

Runpei Dong, Ziyan Li, Xialin He + 1 more2026-02-25💻 cs

Tree crop mapping of South America reveals links to deforestation and conservation

Este estudio presenta el primer mapa de cultivos leñosos de 10 metros de resolución para Sudamérica, generado mediante aprendizaje profundo, que revela vínculos con la deforestación y corrige errores en los mapas regulatorios actuales que clasifican erróneamente la agricultura establecida como bosque, protegiendo así a los pequeños agricultores.

Yuchang Jiang, Anton Raichuk, Xiaoye Tong + 6 more2026-02-25💻 cs

EAGLE: Expert-Augmented Attention Guidance for Tuning-Free Industrial Anomaly Detection in Multimodal Large Language Models

El artículo presenta EAGLE, un marco libre de ajuste que mejora la detección de anomalías industriales en modelos de lenguaje grandes multimodales mediante la guía de la atención con modelos expertos, logrando un rendimiento comparable a métodos de ajuste fino sin actualizar parámetros.

Xiaomeng Peng, Xilang Huang, Seon Han Choi2026-02-25💻 cs

Probability-Invariant Random Walk Learning on Gyral Folding-Based Cortical Similarity Networks for Alzheimer's and Lewy Body Dementia Diagnosis

Este artículo propone un marco de aprendizaje basado en paseos aleatorios invariables a la probabilidad que clasifica redes de similitud cortical individualizadas utilizando pliegues giroideos, superando las limitaciones de alineación de nodos de los métodos existentes para mejorar el diagnóstico de la enfermedad de Alzheimer y la demencia con cuerpos de Lewy.

Minheng Chen, Tong Chen, Chao Cao + 4 more2026-02-25🧬 q-bio

MIRROR: Multimodal Iterative Reasoning via Reflection on Visual Regions

El artículo presenta MIRROR, un marco de razonamiento multimodal iterativo que reduce las alucinaciones y mejora la precisión mediante un proceso de reflexión en bucle cerrado que verifica y revisa las respuestas basándose en regiones visuales específicas, respaldado por el nuevo conjunto de datos ReflectV.

Haoyu Zhang, Yuwei Wu, Pengxiang Li + 6 more2026-02-25💻 cs

Keep it SymPL: Symbolic Projective Layout for Allocentric Spatial Reasoning in Vision-Language Models

Este artículo presenta SymPL, un marco que mejora el razonamiento espacial allocéntrico en modelos de visión y lenguaje reformulando las relaciones espaciales en representaciones simbólicas estructuradas mediante proyección, abstracción, bipartición y localización.

Jaeyun Jang, Seunghui Shin, Taeho Park + 1 more2026-02-25💻 cs

TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding

El artículo presenta TraceVision, un modelo unificado visión-lenguaje que integra la comprensión espacial consciente de trayectorias mediante un módulo de percepción visual bidireccional y un nuevo conjunto de datos, logrando un rendimiento superior en tareas de generación de descripciones, localización y segmentación al simular la atención visual humana.

Fan Yang, Shurong Zheng, Hongyin Zhao + 5 more2026-02-25💻 cs

Brewing Stronger Features: Dual-Teacher Distillation for Multispectral Earth Observation

Este trabajo propone un marco de destilación dual con dos profesores para la teledetección multiespectral que alinea el aprendizaje de representaciones con modelos de visión óptica, logrando resultados de vanguardia en diversas tareas sin comprometer el rendimiento en datos ópticos.

Filip Wolf, Blaž Rolih, Luka Čehovin Zajc2026-02-25💻 cs

A Very Big Video Reasoning Suite

Este trabajo presenta VBVR, un conjunto de datos y un marco de evaluación sin precedentes que, al ofrecer más de un millón de clips de video para 200 tareas de razonamiento, permite estudiar la escalabilidad de los modelos de video y observa signos tempranos de generalización emergente en el razonamiento espaciotemporal.

Maijunxian Wang, Ruisi Wang, Juyi Lin + 53 more2026-02-25🤖 cs.AI

Mobile-O: Unified Multimodal Understanding and Generation on Mobile Device

Mobile-O es un modelo multimodal unificado compacto que, gracias a su innovador Proyectador de Condicionamiento Móvil (MCP) y una eficiente estrategia de entrenamiento, permite la comprensión y generación de imágenes en tiempo real directamente en dispositivos móviles, superando en rendimiento y velocidad a modelos existentes como Show-O y JanusFlow.

Abdelrahman Shaker, Ahmed Heakl, Jaseel Muhammad + 8 more2026-02-25💻 cs

VISION-ICE: Video-based Interpretation and Spatial Identification of Arrhythmia Origins via Neural Networks in Intracardiac Echocardiography

El estudio presenta VISION-ICE, un marco basado en inteligencia artificial que utiliza redes neuronales convolucionales tridimensionales sobre videos de ecocardiografía intracardíaca (ICE) para localizar automáticamente el origen de las arritmias, demostrando una viabilidad clínica prometedora para reducir el tiempo y la carga de los procedimientos de ablación cardíaca.

Dorsa EPMoghaddam, Feng Gao, Drew Bernard + 3 more2026-02-25🤖 cs.LG

Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation

OptimusVLA es un modelo de visión-lenguaje-acción jerárquico que introduce una memoria de prioridad global y una memoria de consistencia local para mejorar la eficiencia de inferencia y la robustez en la manipulación robótica, logrando tasas de éxito superiores y una aceleración de 2.9 veces en comparación con modelos de referencia en diversos entornos de simulación y del mundo real.

Zaijing Li, Bing Hu, Rui Shao + 5 more2026-02-25🤖 cs.AI

UniLACT: Depth-Aware RGB Latent Action Learning for Vision-Language-Action Models

El artículo presenta UniLACT, un modelo de visión-lenguaje-acción que supera las limitaciones de los enfoques basados únicamente en RGB mediante un preentrenamiento con representaciones de acciones latentes unificadas y conscientes de la profundidad, logrando así una manipulación robótica más precisa y con mejores priores espaciales.

Manish Kumar Govind, Dominick Reilly, Pu Wang + 1 more2026-02-25💻 cs

De-rendering, Reasoning, and Repairing Charts with Vision-Language Models

Este trabajo presenta un marco que combina la desrenderización de gráficos, el razonamiento con modelos de lenguaje visión-lingüístico y la mejora iterativa para ofrecer retroalimentación accionable y basada en principios sobre el diseño de visualizaciones, permitiendo a los usuarios corregir errores y generar figuras de mayor calidad.

Valentin Bonas, Martin Sinnona, Viviana Siless + 1 more2026-02-25💻 cs

N4MC: Neural 4D Mesh Compression

N4MC es el primer marco de compresión neuronal 4D que aprovecha la redundancia temporal en secuencias de mallas mediante la conversión a tensores regulares, un auto-descodificador y un modelo de interpolación basado en transformadores, logrando un rendimiento superior en tasa-distorsión y una decodificación en tiempo real.

Guodong Chen, Huanshuo Dong, Mallesham Dasari2026-02-25💻 cs

Inspectorch: Efficient rare event exploration in solar observations

El artículo presenta Inspectorch, un marco de código abierto basado en modelos de flujo que utiliza estimación de densidad no supervisada para identificar eficientemente eventos raros y extremos en grandes volúmenes de datos de observaciones solares, optimizando así el uso de recursos computacionales.

C. J. Díaz Baso, I. J. Soler Poquet, C. Kuckein + 2 more2026-02-25🔭 astro-ph

GSNR: Graph Smooth Null-Space Representation for Inverse Problems

El artículo propone GSNR, un método que mejora la resolución de problemas inversos en imágenes al incorporar información estructurada del espacio nulo mediante una representación de grafo suave, logrando mejoras significativas en la convergencia y la calidad de la reconstrucción en comparación con enfoques basados en priores generales o modelos aprendidos.

Romario Gualdrón-Hurtado, Roman Jacome, Rafael S. Suarez + 1 more2026-02-25⚡ eess

← Anterior Siguiente →