cs.CV artículos | Gist.Science

StemVLA:An Open-Source Vision-Language-Action Model with Future 3D Spatial Geometry Knowledge and 4D Historical Representation

StemVLA es un modelo de visión-lenguaje-acción de código abierto que mejora la manipulación robótica y el razonamiento espacial al integrar explícitamente el conocimiento geométrico 3D futuro y representaciones históricas 4D en la predicción de acciones.

Jiasong Xiao, Yutao She, Kai Li + 3 more2026-03-02💻 cs

A Difference-in-Difference Approach to Detecting AI-Generated Images

Este artículo propone un método novedoso de diferencias en diferencias que utiliza la segunda diferencia del error de reconstrucción para mejorar la precisión y la generalización en la detección de imágenes generadas por IA, superando las limitaciones de los enfoques basados únicamente en el error de reconstrucción.

Xinyi Qi, Kai Ye, Chengchun Shi + 3 more2026-03-02💻 cs

UTPTrack: Towards Simple and Unified Token Pruning for Visual Tracking

El artículo presenta UTPTrack, un marco unificado y sencillo de poda de tokens que comprime conjuntamente todas las componentes de los rastreadores basados en Transformer, logrando un nuevo estado del arte en el equilibrio entre precisión y eficiencia para el seguimiento visual en escenarios RGB y multimodales.

Hao Wu, Xudong Wang, Jialiang Zhang + 5 more2026-03-02💬 cs.CL

U-Mind: A Unified Framework for Real-Time Multimodal Interaction with Audiovisual Generation

U-Mind es el primer sistema unificado que habilita la interacción multimodal en tiempo real con generación de audio, video y movimiento, superando las limitaciones de alineación y razonamiento de sistemas anteriores mediante un marco de alineación unificada y aprendizaje basado en ensayo.

Xiang Deng, Feng Gao, Yong Zhang + 5 more2026-03-02💻 cs

Shape vs. Context: Examining Human--AI Gaps in Ambiguous Japanese Character Recognition

Este estudio revela que, aunque los Modelos Visión-Lenguaje (VLM) pueden reconocer texto con alta precisión, sus patrones de decisión para resolver ambigüedades en caracteres japoneses difieren cualitativamente de los humanos, mostrando que el contexto puede mejorar la alineación en ciertas condiciones pero no elimina las discrepancias fundamentales en la percepción de la forma.

Daichi Haraguchi2026-03-02💻 cs

Unsupervised Causal Prototypical Networks for De-biased Interpretable Dermoscopy Diagnosis

El artículo presenta CausalProto, una red prototípica causal no supervisada que elimina los sesgos ambientales en el diagnóstico dermatoscópico mediante la desvinculación de características patológicas y confusores, logrando así un rendimiento superior y una interpretabilidad visual transparente sin comprometer la precisión.

Junhao Jia, Yueyi Wu, Huangwei Chen + 4 more2026-03-02⚡ eess

Neural Image Space Tessellation

El artículo presenta NIST, un enfoque de post-procesamiento en espacio de pantalla que utiliza redes neuronales para simular visualmente la teselación de geometrías complejos deformando contornos y reasignando texturas, logrando siluetas suaves y coherentes sin aumentar la complejidad geométrica ni el coste computacional.

Youyang Du, Junqiu Zhu, Zheng Zeng + 2 more2026-03-02💻 cs

Learning Accurate Segmentation Purely from Self-Supervision

El artículo presenta Selfment, un marco completamente auto-supervisado que logra una segmentación precisa de objetos sin anotaciones manuales mediante la optimización iterativa de parches y el entrenamiento de una cabeza de segmentación ligera, estableciendo nuevos récords en detección de saliencia y generalización cero-shot para la detección de objetos camuflados.

Zuyao You, Zuxuan Wu, Yu-Gang Jiang2026-03-02💻 cs

OPTIAGENT: A Physics-Driven Agentic Framework for Automated Optical Design

Este trabajo presenta OPTIAGENT, un marco de agentes impulsado por física que utiliza modelos de lenguaje grandes optimizados mediante una recompensa lexicográfica óptica y un conjunto de datos especializado para automatizar el diseño de sistemas lentes, permitiendo a usuarios sin formación específica crear configuraciones ópticas funcionales con un rendimiento superior a los métodos tradicionales.

Yuyu Geng, Lei Sun, Yao Gao + 6 more2026-03-02🤖 cs.LG

VideoPulse: Neonatal heart rate and peripheral capillary oxygen saturation (SpO2) estimation from contact free video

El artículo presenta VideoPulse, un conjunto de datos y una metodología de aprendizaje profundo que permite estimar de forma precisa y sin contacto la frecuencia cardíaca y la saturación de oxígeno en neonatos a partir de videos faciales, ofreciendo una alternativa no invasiva y de bajo costo para el monitoreo en unidades de cuidados intensivos.

Deependra Dewagiri, Kamesh Anuradha, Pabadhi Liyanage + 6 more2026-03-02⚡ eess

Breaking the Data Barrier: Robust Few-Shot 3D Vessel Segmentation using Foundation Models

Este trabajo propone un marco innovador que adapta el modelo fundacional DINOv3 mediante adaptadores 3D y agregación multi-escala para lograr una segmentación robusta de vasos sanguíneos en entornos de pocos datos y con cambios de dominio, superando significativamente a los métodos actuales como nnU-Net.

Kirato Yoshihara, Yohei Sugawara, Yuta Tokuoka + 1 more2026-03-02⚡ eess

FluoCLIP: Stain-Aware Focus Quality Assessment in Fluorescence Microscopy

Este trabajo presenta FluoCLIP, un marco de visión-lingüística y el primer conjunto de datos (FluoMix) diseñados para abordar la evaluación de la calidad del enfoque en microscopía de fluorescencia considerando la variabilidad específica de los tintes, superando así las limitaciones de los enfoques anteriores que ignoran estas diferencias.

Hyejin Park, Jiwon Yoon, Sumin Park + 5 more2026-03-02⚡ eess

EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models

El marco EMO-R3 mejora la capacidad de razonamiento emocional de los modelos de lenguaje grandes multimodales mediante un aprendizaje por refuerzo reflexivo que integra un pensamiento emocional estructurado y una recompensa reflexiva para lograr una mayor interpretabilidad y coherencia en la comprensión de emociones visuales.

Yiyang Fang, Wenke Huang, Pei Fu + 5 more2026-03-02🤖 cs.AI

BiM-GeoAttn-Net: Linear-Time Depth Modeling with Geometry-Aware Attention for 3D Aortic Dissection CTA Segmentation

El artículo presenta BiM-GeoAttn-Net, un marco de aprendizaje profundo ligero que combina modelado de estado espacial bidireccional de tiempo lineal con atención consciente de la geometría para lograr una segmentación tridimensional precisa y coherente de las diseciones aórticas en angiografías por tomografía computarizada.

Yuan Zhang, Lei Liu, Jialin Zhang + 3 more2026-03-02⚡ eess

See, Act, Adapt: Active Perception for Unsupervised Cross-Domain Visual Adaptation via Personalized VLM-Guided Agent

El artículo presenta Sea², un marco de adaptación visual no supervisada que utiliza un agente guiado por un modelo de lenguaje visual personalizado para controlar la pose y seleccionar vistas informativas, mejorando significativamente el rendimiento de modelos de percepción preentrenados en entornos interiores sin necesidad de reentrenarlos ni usar etiquetas.

Tianci Tang, Tielong Cai, Hongwei Wang + 1 more2026-03-02🤖 cs.AI

Action-Geometry Prediction with 3D Geometric Prior for Bimanual Manipulation

Este trabajo propone un marco para la manipulación bimanual que aprovecha un modelo fundacional geométrico 3D preentrenado para predecir simultáneamente acciones y la evolución de la escena en 3D a partir de imágenes RGB, logrando un rendimiento superior al de los métodos basados en 2D o nubes de puntos explícitas.

Chongyang Xu, Haipeng Li, Shen Cheng + 4 more2026-03-02💻 cs

Footprint-Guided Exemplar-Free Continual Histopathology Report Generation

Este artículo presenta un marco de aprendizaje continuo sin ejemplos para la generación de informes de patología a partir de imágenes de diapositivas completas, que evita el olvido catastrófico mediante el uso de huellas digitales compactas para la recuperación generativa y descriptores de estilo para adaptar las convenciones de redacción, todo ello sin necesidad de almacenar datos históricos.

Pratibha Kumari, Daniel Reisenbüchler, Afshin Bozorgpour + 3 more2026-03-02💻 cs

Denoising-Enhanced YOLO for Robust SAR Ship Detection

Este artículo presenta CPN-YOLO, un marco de detección de barcos en imágenes SAR que mejora el rendimiento de YOLOv8 mediante un módulo de denoising, un mecanismo de atención PPA y una pérdida de similitud gaussiana, logrando resultados superiores en precisión y detección de objetivos pequeños en conjuntos de datos como HRSID y SSDD.

Xiaojing Zhao, Shiyang Li, Zena Chu + 5 more2026-03-02💻 cs

Revisiting Integration of Image and Metadata for DICOM Series Classification: Cross-Attention and Dictionary Learning

Este artículo presenta un marco multimodal de extremo a extremo que integra imágenes y metadatos mediante mecanismos de atención cruzada y aprendizaje de diccionarios para clasificar series DICOM de manera robusta, superando los desafíos de heterogeneidad, longitud variable y metadatos incompletos sin necesidad de imputación.

Tuan Truong, Melanie Dohmen, Sara Lorio + 1 more2026-03-02⚡ eess

Polarization Uncertainty-Guided Diffusion Model for Color Polarization Image Demosaicking

Este artículo presenta un modelo de difusión guiado por la incertidumbre de polarización que supera las limitaciones de los métodos existentes para el remuestreo de imágenes de polarización en color, logrando una reconstrucción precisa de las características de polarización mediante la integración de priores de difusión y la estimación explícita de incertidumbre.

Chenggong Li, Yidong Luo, Junchao Zhang + 1 more2026-03-02⚡ eess

← Anterior Siguiente →