cs.CV artículos | Gist.Science

Addressing Camera Sensors Faults in Vision-Based Navigation: Simulation and Dataset Development

Este estudio aborda la falta de datos de fallos en sensores para la navegación basada en visión en misiones espaciales mediante el desarrollo de un marco de simulación que genera un conjunto de datos sintéticos de imágenes defectuosas para entrenar y probar algoritmos de inteligencia artificial destinados a la detección de fallos.

Riccardo Gallon, Fabian Schiemenz, Alessandra Menicucci + 1 more2026-02-25🤖 cs.AI

NRSeg: Noise-Resilient Learning for BEV Semantic Segmentation via Driving World Models

El artículo presenta NRSeg, un marco de aprendizaje resiliente al ruido que mejora la segmentación semántica en vista aérea (BEV) mediante el uso de datos sintéticos de modelos del mundo de conducción, incorporando métricas de consistencia geométrica, predicción paralela de distribuciones y exclusión semántica local jerárquica para lograr un rendimiento de vanguardia en tareas no supervisadas y semi-supervisadas.

Siyu Li, Fei Teng, Yihong Cao + 3 more2026-02-25⚡ eess

SFATTI: Spiking FPGA Accelerator for Temporal Task-driven Inference -- A Case Study on MNIST

Este artículo presenta SFATTI, un acelerador de FPGA basado en redes neuronales de pulsos (SNN) generado mediante el marco de código abierto Spiker+ para la inferencia eficiente en energía y baja latencia de la tarea de reconocimiento de dígitos manuscritos en el conjunto de datos MNIST.

Alessio Caviglia, Filippo Marostica, Alessio Carpegna + 2 more2026-02-25💻 cs

Low-Latency Event-Based Velocimetry for Quadrotor Control in a Narrow Pipe

Este trabajo presenta el primer sistema de control en bucle cerrado para el hover de cuadricópteros en tuberías estrechas, el cual utiliza velocimetría basada en eventos de baja latencia y una red neuronal recurrente para estimar perturbaciones aerodinámicas en tiempo real y evitar colisiones mediante maniobras de control reactivas.

Leonard Bauersfeld, Davide Scaramuzza2026-02-25💻 cs

FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images

El artículo presenta FedGIN, un marco de aprendizaje federado que utiliza una augmentación no lineal dinámica de intensidad global para mejorar la segmentación de órganos en imágenes multimodales (MRI y CT) sin compartir datos privados, logrando significativas mejoras en el rendimiento y la generalización entre modalidades.

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen + 1 more2026-02-25🤖 cs.AI

Seeing Through the Noise: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective

Este artículo presenta la NS-FPN, una red de pirámide de características que mejora la detección y segmentación de objetivos pequeños en infrarrojos mediante la supresión de ruido en el dominio de la frecuencia, logrando así una reducción significativa de las falsas alarmas en comparación con los métodos basados en CNN.

Maoxun Yuan, Duanni Meng, Ziteng Xi + 4 more2026-02-25🤖 cs.AI

Learned Regularization for Microwave Tomography

Este artículo presenta SSD-Reg, un marco híbrido de física y aprendizaje profundo que integra modelos de difusión como regularización en un esquema variacional para reconstruir imágenes de tomografía de microondas con alta precisión y sin necesidad de datos de entrenamiento emparejados.

Bowen Tong, Hao Chen, Shaorui Guo + 1 more2026-02-25⚡ eess

PaCo-FR: Patch-Pixel Aligned End-to-End Codebook Learning for Facial Representation Pre-training

El artículo presenta PaCo-FR, un marco de pre-entrenamiento no supervisado que combina el modelado de imágenes enmascaradas con la alineación parche-píxel mediante estrategias de enmascaramiento estructurado, un código de parches novedoso y restricciones de consistencia espacial para lograr un rendimiento superior en tareas de análisis facial con datos limitados.

Yin Xie, Zhichao Chen, Zeyu Xiao + 7 more2026-02-25💻 cs

Trajectory-aware Shifted State Space Models for Online Video Super-Resolution

Este artículo presenta TS-Mamba, un nuevo método de superresolución de video en línea que utiliza modelos de espacio de estado desplazados con conciencia de trayectoria para lograr una agregación espaciotemporal eficiente y de alto rendimiento, superando a los modelos existentes con una reducción significativa de la complejidad computacional.

Qiang Zhu, Xiandong Meng, Yuxian Jiang + 5 more2026-02-25💻 cs

MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling

El paper presenta MoSA, un modelo que genera videos humanos coherentes mediante la decouplación de la estructura y la apariencia, utilizando un transformador 3D para el movimiento y restricciones de contacto para mejorar la interacción con el entorno, superando significativamente a los métodos existentes.

Haoyu Wang, Hao Tang, Donglin Di + 5 more2026-02-25💻 cs

Decouple, Reorganize, and Fuse: A Multimodal Framework for Cancer Survival Prediction

Este trabajo presenta DeReF, un nuevo marco multimodal para la predicción de supervivencia del cáncer que supera las limitaciones de los métodos existentes mediante una estrategia de reorganización aleatoria de características y un módulo de fusión dinámica basado en expertos, mejorando así la generalización y la interacción de información entre modalidades en conjuntos de datos de cáncer de hígado y TCGA.

Huayi Wang, Haochao Ying, Yuyang Xu + 5 more2026-02-25💻 cs

Learning Unified Representations from Heterogeneous Data for Robust Heart Rate Modeling

Este artículo presenta un marco innovador que aprende representaciones unificadas para modelar la frecuencia cardíaca de manera robusta ante la heterogeneidad de datos, abordando tanto las diferencias entre dispositivos como las variaciones fisiológicas individuales mediante estrategias como el dropout aleatorio de características, la atención consciente del historial y el aprendizaje contrastivo, lo que se valida mediante un nuevo conjunto de datos (PARROTAO) y mejoras significativas en el rendimiento frente a métodos existentes.

Zhengdong Huang, Zicheng Xie, Wentao Tian + 3 more2026-02-25🤖 cs.LG

EHWGesture -- A dataset for multimodal understanding of clinical gestures

Este artículo presenta EHWGesture, un nuevo conjunto de datos multimodal que incluye grabaciones de video RGB-D y de eventos con seguimiento preciso de landmarks, diseñado para avanzar en la comprensión de gestos clínicos, la detección de activación y la evaluación de la calidad de la ejecución mediante cinco gestos relevantes capturados de 25 sujetos.

Gianluca Amprimo, Alberto Ancilotto, Alessandro Savino + 5 more2026-02-25🤖 cs.AI

PCPO: Proportionate Credit Policy Optimization for Aligning Image Generation Models

El artículo presenta PCPO, un marco de optimización que corrige la asignación desproporcionada de créditos en los modelos de generación de imágenes mediante una reformulación estable y un reequilibrio de pasos temporales, logrando así una convergencia más rápida y una calidad de imagen superior al mitigar el colapso del modelo.

Jeongjae Lee, Jong Chul Ye2026-02-25🤖 cs.AI

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations

Este artículo presenta RobustVLA, un modelo de visión-lenguaje-acción que mejora significativamente la robustez frente a perturbaciones multimodales mediante optimización de salida adversaria y consistencia de entrada, demostrando ganancias sustanciales en rendimiento y eficiencia tanto en simulaciones como en robots reales.

Jianing Guo, Zhenhong Wu, Chang Tu + 13 more2026-02-25🤖 cs.AI

DeLTa: Demonstration and Language-Guided Novel Transparent Object Manipulation

El artículo presenta DeLTa, un marco innovador que combina estimación de profundidad, estimación de pose 6D y planificación guiada por lenguaje para lograr la manipulación precisa de objetos transparentes novedosos a largo plazo mediante una sola demostración, superando las limitaciones de generalización y precisión de los métodos existentes.

Taeyeop Lee, Gyuree Kang, Bowen Wen + 5 more2026-02-25💻 cs

Spatial-DISE: A Unified Benchmark for Evaluating Spatial Reasoning in Vision-Language Models

Este trabajo presenta Spatial-DISE, un nuevo benchmark unificado y un conjunto de datos escalable diseñados para evaluar la capacidad de razonamiento espacial intrínseco-dinámico en modelos de visión y lenguaje, revelando una brecha significativa entre el rendimiento actual de estos modelos y la competencia humana.

Xinmiao Huang, Qisong He, Zhenglin Huang + 5 more2026-02-25💻 cs

UniGenBench++: A Unified Semantic Evaluation Benchmark for Text-to-Image Generation

El artículo presenta UniGenBench++, un nuevo benchmark unificado y multilingüe que evalúa de forma exhaustiva y detallada la consistencia semántica de los modelos de generación de imágenes a partir de texto mediante 600 prompts jerárquicos y criterios de evaluación finos.

Yibin Wang, Zhimin Li, Yuhang Zang + 8 more2026-02-25💻 cs

egoEMOTION: Egocentric Vision and Physiological Signals for Emotion and Personality Recognition in Real-World Tasks

El paper presenta egoEMOTION, el primer conjunto de datos que combina señales visuales egocéntricas y fisiológicas con autoinformes densos de emociones y personalidad para establecer nuevas tareas de referencia y modelos de comportamiento impulsados por el afecto en escenarios reales.

Matthias Jammot, Björn Braun, Paul Streli + 2 more2026-02-25💻 cs

Sound Source Localization for Spatial Mapping of Surgical Actions in Dynamic Scenes

Este trabajo presenta un marco innovador que integra la localización acústica 3D con datos visuales dinámicos para mejorar la comprensión contextual de los entornos quirúrgicos y sentar las bases para sistemas quirúrgicos inteligentes.

Jonas Hein, Lazaros Vlachopoulos, Maurits Geert Laurent Olthof + 3 more2026-02-25⚡ eess

← Anterior Siguiente →