cs.CV artículos | Gist.Science

Tether: Autonomous Functional Play with Correspondence-Driven Trajectory Warping

El método Tether permite el juego funcional autónomo en robots mediante una política de deformación de trayectorias basada en correspondencias semánticas y un ciclo de mejora guiado por modelos de visión-lingüística, logrando generar miles de trayectorias expertas a partir de pocas demostraciones iniciales.

William Liang, Sam Wang, Hung-Ju Wang + 3 more2026-03-04🤖 cs.AI

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation

El artículo presenta ULTRA, un marco unificado que combina un algoritmo de reorientación neural impulsado por física y un controlador multimodal para permitir que los humanoides realicen locomoción y manipulación coordinadas de todo el cuerpo de forma autónoma a partir de especificaciones de tareas escasas y percepción visual egocéntrica, superando las limitaciones de los métodos tradicionales que dependen de referencias de movimiento predefinidas.

Xialin He, Sirui Xu, Xinyao Li + 4 more2026-03-04💻 cs

How to Peel with a Knife: Aligning Fine-Grained Manipulation with Human Preference

Este artículo presenta un marco de aprendizaje en dos etapas para la manipulación robótica de alta precisión, como pelar alimentos con un cuchillo, que combina aprendizaje por imitación y ajuste fino basado en preferencias humanas para lograr una alta tasa de éxito y una generalización robusta ante la subjetividad de los criterios de calidad.

Toru Lin, Shuying Deng, Zhao-Heng Yin + 2 more2026-03-04⚡ eess

MIBURI: Towards Expressive Interactive Gesture Synthesis

El artículo presenta MIBURI, un marco causal en línea pionero que genera gestos corporales completos y expresiones faciales sincronizadas en tiempo real para agentes conversacionales, superando las limitaciones de rigidez y latencia de las soluciones existentes mediante el uso de codecs de movimiento jerárquicos y una generación autoregresiva basada en embeddings de lenguaje.

M. Hamza Mughal, Rishabh Dabral, Vera Demberg + 1 more2026-03-04💻 cs

Utonia: Toward One Encoder for All Point Clouds

El artículo presenta Utonia, un modelo de transformador auto-supervisado que unifica el aprendizaje de representaciones consistentes para nubes de puntos de diversos dominios, mejorando no solo la percepción 3D sino también el razonamiento espacial y la manipulación robótica mediante su integración en sistemas multimodales.

Yujia Zhang, Xiaoyang Wu, Yunhan Yang + 6 more2026-03-04💻 cs

Towards Accurate One-Stage Object Detection with AP-Loss

Este artículo propone un nuevo marco para la detección de objetos en una sola etapa que reemplaza la tarea de clasificación por una de clasificación de ordenamiento utilizando la pérdida de precisión media (AP-loss), combinada con un algoritmo de optimización novedoso que supera las dificultades de no diferenciabilidad y no convexidad, logrando así mejoras significativas en el rendimiento sin alterar las arquitecturas de red existentes.

Kean Chen, Jianguo Li, Weiyao Lin + 6 more2026-03-03💻 cs

AP-Loss for Accurate One-Stage Object Detection

Este artículo propone un marco novedoso para la detección de objetos en una sola etapa que reemplaza la tarea de clasificación por una de clasificación de ordenamiento utilizando la pérdida de Precisión Media (AP-loss), la cual se optimiza mediante un algoritmo híbrido que combina el aprendizaje del perceptrón y la retropropagación para mitigar el desequilibrio entre clases y lograr un rendimiento superior al estado del arte.

Kean Chen, Weiyao Lin, Jianguo Li + 3 more2026-03-03💻 cs

OmniTracker: Unifying Object Tracking by Tracking-with-Detection

El artículo presenta OmniTracker, un modelo unificado que integra la detección y el seguimiento mediante un paradigma de "seguimiento con detección" para resolver diversas tareas de rastreo de objetos con una sola arquitectura compartida, eliminando redundancias y logrando un rendimiento competitivo en múltiples conjuntos de datos.

Junke Wang, Zuxuan Wu, Dongdong Chen + 4 more2026-03-03💻 cs

RFAConv: Receptive-Field Attention Convolution for Improving Convolutional Neural Networks

Este trabajo presenta RFAConv, una nueva convolución de atención que aborda las limitaciones de los mecanismos de atención espacial existentes al priorizar las características del campo receptivo para optimizar el intercambio de parámetros en kernels grandes, logrando mejoras significativas en el rendimiento de las redes neuronales con un costo computacional casi nulo.

Xin Zhang, Chen Liu, Degang Yang + 4 more2026-03-03💻 cs

Task-Driven Lens Design

El artículo presenta el diseño de lentes impulsado por tareas, un enfoque que optimiza la formación de imágenes específicamente para modelos de visión por computadora preentrenados, logrando un proceso de entrenamiento estable y superando a las lentes clásicas al preservar mejor las características estructurales preferidas por la red.

Xinge Yang, Qiang Fu, Yunfeng Nie + 1 more2026-03-03🔬 physics.optics

Topological Inductive Bias fosters Multiple Instance Learning in Data-Scarce Scenarios

El artículo propone el método TG-MIL, que incorpora sesgos inductivos topológicos para preservar la estructura de los datos en el aprendizaje múltiple de instancias, logrando mejoras significativas en la clasificación de enfermedades raras y otros escenarios con escasez de datos.

Salome Kazeminia, Carsten Marr, Bastian Rieck2026-03-03⚡ eess

Velocity Disambiguation for Video Frame Interpolation

Este artículo propone un método de interpolación de video que mejora la calidad de los fotogramas generados al sustituir la indexación temporal implícita por una indexación de distancia explícita y una estrategia de estimación iterativa, lo que permite disambiguar movimientos complejos, reducir el desenfoque y habilitar la manipulación temporal independiente de objetos para tareas de edición.

Zhihang Zhong, Yiming Zhang, Wei Wang + 5 more2026-03-03💻 cs

Beyond DAGs: A Latent Partial Causal Model for Multimodal Learning

Este trabajo propone un modelo causal parcial latente para datos multimodales que supera las limitaciones de los grafos acíclicos dirigidos, demostrando teóricamente que el aprendizaje contrastivo multimodal (MMCL) descubre variables latentes acopladas identificables y validando empíricamente que estas representaciones disociadas mejoran el aprendizaje con pocos ejemplos y la generalización de dominio en modelos preentrenados como CLIP.

Yuhang Liu, Zhen Zhang, Dong Gong + 6 more2026-03-03🤖 cs.LG

Towards Precision Cardiovascular Analysis in Zebrafish: The ZACAF Paradigm

Este trabajo presenta ZACAF, un marco automatizado que utiliza aprendizaje por transferencia y aumentación de datos para mejorar la precisión y generalización en la cuantificación de la función cardiovascular en cebrafish, demostrando su eficacia en el análisis de mutantes nrap.

Amir Mohammad Naderi, Jennifer G. Casey, Mao-Hsiang Huang + 5 more2026-03-03⚡ eess

FiLo: Zero-Shot Anomaly Detection by Fine-Grained Description and High-Quality Localization

El artículo presenta FiLo, un método de detección de anomalías en ceros (ZSAD) que mejora la precisión y localización mediante descripciones de anomalías de grano fino generadas por modelos de lenguaje grandes y un módulo de interacción multimodal de múltiples escalas y formas para la localización de alta calidad.

Zhaopeng Gu, Bingke Zhu, Guibo Zhu + 4 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

Este trabajo propone el método USEFUL, que mitiga el sesgo de simplicidad al identificar y re-muestrear ejemplos basándose en la salida temprana de la red, mejorando así la generalización in-distribución y logrando resultados de vanguardia en diversas arquitecturas y conjuntos de datos.

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

Towards Camera Open-set 3D Object Detection for Autonomous Driving Scenarios

El artículo presenta OS-Det3D, un marco de entrenamiento de dos etapas que combina propuestas de objetos 3D agnósticas a la clase derivadas de LiDAR con un módulo de selección conjunta basado en características de cámara para mejorar la detección de objetos desconocidos y conocidos en escenarios de conducción autónoma.

Zhuolin He, Xinrun Li, Jiacheng Tang + 4 more2026-03-03🤖 cs.AI

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

El artículo presenta PO-GUISE+, un transformador de video multi-tarea que optimiza la eficiencia computacional para el reconocimiento de acciones de conducción distraída mediante la selección de tokens guiada por la pose y los objetos, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos y plataformas embebidas.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

El artículo presenta MSSPlace, un método de reconocimiento de lugares que integra datos de múltiples sensores (cámaras, LiDAR, segmentación semántica y descripciones de texto) mediante una fusión tardía para lograr un rendimiento superior al estado del arte en comparación con los enfoques de una sola modalidad.

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Este trabajo presenta un nuevo conjunto de datos público que incluye videos y una taxonomía de 90 objetos esenciales para la navegación de personas ciegas o con baja visión, con el objetivo de mejorar los sistemas de reconocimiento de objetos y desarrollar herramientas de navegación más inclusivas.

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

← Anterior Siguiente →