cs.CV artículos | Gist.Science

Any Model, Any Place, Any Time: Get Remote Sensing Foundation Model Embeddings On Demand

El artículo presenta rs-embed, una biblioteca de Python que unifica el acceso a los embeddings de modelos fundamentales de teledetección mediante una interfaz centrada en regiones de interés, permitiendo recuperar datos de cualquier modelo, lugar y momento con una sola línea de código.

Dingqi Ye, Daniel Kiv, Wei Hu + 2 more2026-03-02🤖 cs.LG

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

HiDrop es un marco innovador que optimiza la eficiencia de los Modelos de Lenguaje Multimodal (MLLM) mediante la reducción jerárquica de tokens visuales, combinando inyección tardía, poda piramidal cóncava y salida temprana para eliminar el 90% de los tokens sin sacrificar el rendimiento y acelerando el entrenamiento en 1,72 veces.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

A Reliable Indoor Navigation System for Humans Using AR-based Technique

Este artículo presenta un sistema de navegación interior fiable para humanos que combina realidad aumentada con Vuforia y el algoritmo A* en NavMesh para ofrecer rutas óptimas y dinámicas, superando en precisión y eficiencia a los métodos tradicionales como el GPS o la señalización estática.

Vijay U. Rathod, Manav S. Sharma, Shambhavi Verma + 3 more2026-03-02💻 cs

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

El artículo presenta EgoGraph, un marco de construcción de grafos de conocimiento dinámico y sin entrenamiento diseñado para superar las limitaciones de los modelos actuales mediante la representación semántica unificada y el razonamiento temporal de dependencias a largo plazo en videos egocéntricos ultra-largos, logrando un rendimiento superior en benchmarks de comprensión de video.

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

Este trabajo introduce VGUBench para demostrar que, aunque los Modelos de Lenguaje Multimodales Unificados (U-MLLMs) poseen capacidades sólidas de razonamiento textual y generación visual básica, sufren un colapso semántico al intentar generar respuestas visuales que reflejen consistentemente su razonamiento, revelando una desconexión crítica entre la comprensión y la generación multimodal.

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

StemVLA es un modelo de visión-lenguaje-acción de código abierto que mejora la manipulación robótica y el razonamiento espacial al integrar explícitamente el conocimiento geométrico 3D futuro y representaciones históricas 4D en la predicción de acciones.

Jiasong Xiao, Yutao She, Kai Li + 3 more2026-03-02💻 cs

A Difference-in-Difference Approach to Detecting AI-Generated Images

Este artículo propone un método novedoso de diferencias en diferencias que utiliza la segunda diferencia del error de reconstrucción para mejorar la precisión y la generalización en la detección de imágenes generadas por IA, superando las limitaciones de los enfoques basados únicamente en el error de reconstrucción.

Xinyi Qi, Kai Ye, Chengchun Shi + 3 more2026-03-02💻 cs

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

El artículo presenta UTPTrack, un marco unificado y sencillo de poda de tokens que comprime conjuntamente todas las componentes de los rastreadores basados en Transformer, logrando un nuevo estado del arte en el equilibrio entre precisión y eficiencia para el seguimiento visual en escenarios RGB y multimodales.

Hao Wu, Xudong Wang, Jialiang Zhang + 5 more2026-03-02💬 cs.CL

U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation

U-Mind es el primer sistema unificado que habilita la interacción multimodal en tiempo real con generación de audio, video y movimiento, superando las limitaciones de alineación y razonamiento de sistemas anteriores mediante un marco de alineación unificada y aprendizaje basado en ensayo.

Xiang Deng, Feng Gao, Yong Zhang + 5 more2026-03-02💻 cs

Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Este estudio revela que, aunque los Modelos Visión-Lenguaje (VLM) pueden reconocer texto con alta precisión, sus patrones de decisión para resolver ambigüedades en caracteres japoneses difieren cualitativamente de los humanos, mostrando que el contexto puede mejorar la alineación en ciertas condiciones pero no elimina las discrepancias fundamentales en la percepción de la forma.

Daichi Haraguchi2026-03-02💻 cs

Unsupervised Causal Prototypical Networks for De-biased Interpretable Dermoscopy Diagnosis

El artículo presenta CausalProto, una red prototípica causal no supervisada que elimina los sesgos ambientales en el diagnóstico dermatoscópico mediante la desvinculación de características patológicas y confusores, logrando así un rendimiento superior y una interpretabilidad visual transparente sin comprometer la precisión.

Junhao Jia, Yueyi Wu, Huangwei Chen + 4 more2026-03-02⚡ eess

Neural Image Space Tessellation

El artículo presenta NIST, un enfoque de post-procesamiento en espacio de pantalla que utiliza redes neuronales para simular visualmente la teselación de geometrías complejos deformando contornos y reasignando texturas, logrando siluetas suaves y coherentes sin aumentar la complejidad geométrica ni el coste computacional.

Youyang Du, Junqiu Zhu, Zheng Zeng + 2 more2026-03-02💻 cs

Learning Accurate Segmentation Purely from Self-Supervision

El artículo presenta Selfment, un marco completamente auto-supervisado que logra una segmentación precisa de objetos sin anotaciones manuales mediante la optimización iterativa de parches y el entrenamiento de una cabeza de segmentación ligera, estableciendo nuevos récords en detección de saliencia y generalización cero-shot para la detección de objetos camuflados.

Zuyao You, Zuxuan Wu, Yu-Gang Jiang2026-03-02💻 cs

OPTIAGENT: A Physics-Driven Agentic Framework for Automated Optical Design

Este trabajo presenta OPTIAGENT, un marco de agentes impulsado por física que utiliza modelos de lenguaje grandes optimizados mediante una recompensa lexicográfica óptica y un conjunto de datos especializado para automatizar el diseño de sistemas lentes, permitiendo a usuarios sin formación específica crear configuraciones ópticas funcionales con un rendimiento superior a los métodos tradicionales.

Yuyu Geng, Lei Sun, Yao Gao + 6 more2026-03-02🤖 cs.LG

VideoPulse: Neonatal heart rate and peripheral capillary oxygen saturation (SpO2) estimation from contact free video

El artículo presenta VideoPulse, un conjunto de datos y una metodología de aprendizaje profundo que permite estimar de forma precisa y sin contacto la frecuencia cardíaca y la saturación de oxígeno en neonatos a partir de videos faciales, ofreciendo una alternativa no invasiva y de bajo costo para el monitoreo en unidades de cuidados intensivos.

Deependra Dewagiri, Kamesh Anuradha, Pabadhi Liyanage + 6 more2026-03-02⚡ eess

Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

Este trabajo propone un marco innovador que adapta el modelo fundacional DINOv3 mediante adaptadores 3D y agregación multi-escala para lograr una segmentación robusta de vasos sanguíneos en entornos de pocos datos y con cambios de dominio, superando significativamente a los métodos actuales como nnU-Net.

Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka + 1 more2026-03-02⚡ eess

FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy

Este trabajo presenta FluoCLIP, un marco de visión-lingüística y el primer conjunto de datos (FluoMix) diseñados para abordar la evaluación de la calidad del enfoque en microscopía de fluorescencia considerando la variabilidad específica de los tintes, superando así las limitaciones de los enfoques anteriores que ignoran estas diferencias.

Hyejin Park, Jiwon Yoon, Sumin Park + 5 more2026-03-02⚡ eess

EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models

El marco EMO-R3 mejora la capacidad de razonamiento emocional de los modelos de lenguaje grandes multimodales mediante un aprendizaje por refuerzo reflexivo que integra un pensamiento emocional estructurado y una recompensa reflexiva para lograr una mayor interpretabilidad y coherencia en la comprensión de emociones visuales.

Yiyang Fang, Wenke Huang, Pei Fu + 5 more2026-03-02🤖 cs.AI

BiM-GeoAttn-Net: Linear-Time Depth Modeling with Geometry-Aware Attention for 3D Aortic Dissection CTA Segmentation

El artículo presenta BiM-GeoAttn-Net, un marco de aprendizaje profundo ligero que combina modelado de estado espacial bidireccional de tiempo lineal con atención consciente de la geometría para lograr una segmentación tridimensional precisa y coherente de las diseciones aórticas en angiografías por tomografía computarizada.

Yuan Zhang, Lei Liu, Jialin Zhang + 3 more2026-03-02⚡ eess

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

El artículo presenta Sea², un marco de adaptación visual no supervisada que utiliza un agente guiado por un modelo de lenguaje visual personalizado para controlar la pose y seleccionar vistas informativas, mejorando significativamente el rendimiento de modelos de percepción preentrenados en entornos interiores sin necesidad de reentrenarlos ni usar etiquetas.

Tianci Tang, Tielong Cai, Hongwei Wang + 1 more2026-03-02🤖 cs.AI

← Anterior Siguiente →